计算机研究与发展
計算機研究與髮展
계산궤연구여발전
JOURNAL OF COMPUTER RESEARCH AND DEVELOPMENT
2013年
z1期
53-60
,共8页
赵志滨%贾岩峰%姚兰%鲍玉斌
趙誌濱%賈巖峰%姚蘭%鮑玉斌
조지빈%가암봉%요란%포옥빈
垂直搜索%结构化数据%网页分类%模板%相似性计算
垂直搜索%結構化數據%網頁分類%模闆%相似性計算
수직수색%결구화수거%망혈분류%모판%상사성계산
vertical search%structured data%Web classification%template%similarity computation
Web页面的主题识别和分类是垂直搜索引擎的核心,是结构化数据抽取的前提,具有重要的学术价值,工程应用也非常广泛.以往的工作多以定向爬虫技术来解决垂直搜索引擎数据采集的专业化问题,而Web页面的主题识别和分类也多采用传统的文本分类方法.针对含有丰富结构化数据的Web页面,提出了复用结构化数据抽取模板来进行Web页面主题识别的分类框架.该框架首先解析Web页面的组织结构,通过属性探测算法,获得Web页面所包含的主题关键词.进一步通过计算主题关键词与结构化抽取模板的相似性来判定Web页面的主题并按照领域进行分类.该方法避免了主题爬虫对URL格式严重依赖的问题,分类准确率也高于传统的文本分类方法.通过实验证明了框架在含有丰富结构化数据的Web页面分类方面的有效性.
Web頁麵的主題識彆和分類是垂直搜索引擎的覈心,是結構化數據抽取的前提,具有重要的學術價值,工程應用也非常廣汎.以往的工作多以定嚮爬蟲技術來解決垂直搜索引擎數據採集的專業化問題,而Web頁麵的主題識彆和分類也多採用傳統的文本分類方法.針對含有豐富結構化數據的Web頁麵,提齣瞭複用結構化數據抽取模闆來進行Web頁麵主題識彆的分類框架.該框架首先解析Web頁麵的組織結構,通過屬性探測算法,穫得Web頁麵所包含的主題關鍵詞.進一步通過計算主題關鍵詞與結構化抽取模闆的相似性來判定Web頁麵的主題併按照領域進行分類.該方法避免瞭主題爬蟲對URL格式嚴重依賴的問題,分類準確率也高于傳統的文本分類方法.通過實驗證明瞭框架在含有豐富結構化數據的Web頁麵分類方麵的有效性.
Web혈면적주제식별화분류시수직수색인경적핵심,시결구화수거추취적전제,구유중요적학술개치,공정응용야비상엄범.이왕적공작다이정향파충기술래해결수직수색인경수거채집적전업화문제,이Web혈면적주제식별화분류야다채용전통적문본분류방법.침대함유봉부결구화수거적Web혈면,제출료복용결구화수거추취모판래진행Web혈면주제식별적분류광가.해광가수선해석Web혈면적조직결구,통과속성탐측산법,획득Web혈면소포함적주제관건사.진일보통과계산주제관건사여결구화추취모판적상사성래판정Web혈면적주제병안조영역진행분류.해방법피면료주제파충대URL격식엄중의뢰적문제,분류준학솔야고우전통적문본분류방법.통과실험증명료광가재함유봉부결구화수거적Web혈면분류방면적유효성.