成都信息工程学院学报
成都信息工程學院學報
성도신식공정학원학보
JOURNAL OF CHENGDU INSTITUTE OF METEOROLOGY
2012年
4期
374-379
,共6页
计算机应用%网页消重%词性分类%特征词群
計算機應用%網頁消重%詞性分類%特徵詞群
계산궤응용%망혈소중%사성분류%특정사군
新闻类网页是互联网上冗余信息的重灾区.冗余网页不仅会加剧搜索引擎的处理负担,并且会降低用户体验,因此有必要对互联网上的冗余新闻网页实施消重处理.该算法依据新闻报道的自然语法特点将一篇新闻报道分解到词,从7类词性类别中提取该类别最高词频的词组成新闻报道的特征词群;通过词级倒排索引的建立,完成不同网页间特征词群的检索和对比;通过类型倒排索引的建立,完成重复和近似网页的识别和分类管理.本算法在实施过程借助于搜索引擎系统原有模块,避免新模块的引入保持了系统的简洁性;实验表明该算法是有效的,在测试的网页中召回率达93.5%,准确率达88.4%.冗余网页小粒度分类识别上具有的缺陷,在很大程度上影响了准确率的提高.
新聞類網頁是互聯網上冗餘信息的重災區.冗餘網頁不僅會加劇搜索引擎的處理負擔,併且會降低用戶體驗,因此有必要對互聯網上的冗餘新聞網頁實施消重處理.該算法依據新聞報道的自然語法特點將一篇新聞報道分解到詞,從7類詞性類彆中提取該類彆最高詞頻的詞組成新聞報道的特徵詞群;通過詞級倒排索引的建立,完成不同網頁間特徵詞群的檢索和對比;通過類型倒排索引的建立,完成重複和近似網頁的識彆和分類管理.本算法在實施過程藉助于搜索引擎繫統原有模塊,避免新模塊的引入保持瞭繫統的簡潔性;實驗錶明該算法是有效的,在測試的網頁中召迴率達93.5%,準確率達88.4%.冗餘網頁小粒度分類識彆上具有的缺陷,在很大程度上影響瞭準確率的提高.
신문류망혈시호련망상용여신식적중재구.용여망혈불부회가극수색인경적처리부담,병차회강저용호체험,인차유필요대호련망상적용여신문망혈실시소중처리.해산법의거신문보도적자연어법특점장일편신문보도분해도사,종7류사성유별중제취해유별최고사빈적사조성신문보도적특정사군;통과사급도배색인적건립,완성불동망혈간특정사군적검색화대비;통과류형도배색인적건립,완성중복화근사망혈적식별화분류관리.본산법재실시과정차조우수색인경계통원유모괴,피면신모괴적인입보지료계통적간길성;실험표명해산법시유효적,재측시적망혈중소회솔체93.5%,준학솔체88.4%.용여망혈소립도분류식별상구유적결함,재흔대정도상영향료준학솔적제고.