计算机研究与发展
計算機研究與髮展
계산궤연구여발전
JOURNAL OF COMPUTER RESEARCH AND DEVELOPMENT
2013年
z2期
140-152
,共13页
CCDet算法%重复网页检测%中文句号特征%索引剪切
CCDet算法%重複網頁檢測%中文句號特徵%索引剪切
CCDet산법%중복망혈검측%중문구호특정%색인전절
CCDet algorithm%duplicate Web page detection%chinese period feature%index pruning
重复文档检测是信息检索领域中一个非常重要的问题.由于网页结构和内容的复杂性,现有方法在网页查重上没有达到很好的准确性,且只有少量工作用于处理包含关系网页检测问题;同时,由于网页数量的巨大,重复网页检测处理时需要考虑大规模数据的并行化算法.提出一种基于句号特征的大规模重复中文网页检测方法CCDet.CCDet采用了一种基于中文句号特征来完成重复文档的相似性比对方法,与现有的主要重复网页检测算法相比,CCDet大幅提高了检测具有重复关系网页和具有包含关系网页的准确性,并拥有较高的检测效率.同时,为了适应大规模新闻网页的查重处理,使用MapReduce编程框架实现了并行化的CCDet算法,使之能够并行化地进行重复网页检测.实验结果表明,并行化的CCDet算法具有较好的检测效果和计算性能,并具有良好的可扩展性.
重複文檔檢測是信息檢索領域中一箇非常重要的問題.由于網頁結構和內容的複雜性,現有方法在網頁查重上沒有達到很好的準確性,且隻有少量工作用于處理包含關繫網頁檢測問題;同時,由于網頁數量的巨大,重複網頁檢測處理時需要攷慮大規模數據的併行化算法.提齣一種基于句號特徵的大規模重複中文網頁檢測方法CCDet.CCDet採用瞭一種基于中文句號特徵來完成重複文檔的相似性比對方法,與現有的主要重複網頁檢測算法相比,CCDet大幅提高瞭檢測具有重複關繫網頁和具有包含關繫網頁的準確性,併擁有較高的檢測效率.同時,為瞭適應大規模新聞網頁的查重處理,使用MapReduce編程框架實現瞭併行化的CCDet算法,使之能夠併行化地進行重複網頁檢測.實驗結果錶明,併行化的CCDet算法具有較好的檢測效果和計算性能,併具有良好的可擴展性.
중복문당검측시신식검색영역중일개비상중요적문제.유우망혈결구화내용적복잡성,현유방법재망혈사중상몰유체도흔호적준학성,차지유소량공작용우처리포함관계망혈검측문제;동시,유우망혈수량적거대,중복망혈검측처리시수요고필대규모수거적병행화산법.제출일충기우구호특정적대규모중복중문망혈검측방법CCDet.CCDet채용료일충기우중문구호특정래완성중복문당적상사성비대방법,여현유적주요중복망혈검측산법상비,CCDet대폭제고료검측구유중복관계망혈화구유포함관계망혈적준학성,병옹유교고적검측효솔.동시,위료괄응대규모신문망혈적사중처리,사용MapReduce편정광가실현료병행화적CCDet산법,사지능구병행화지진행중복망혈검측.실험결과표명,병행화적CCDet산법구유교호적검측효과화계산성능,병구유량호적가확전성.