中文信息学报
中文信息學報
중문신식학보
JOURNAL OF CHINESE INFORMAITON PROCESSING
2011年
1期
91-97
,共7页
张玥%俞昊旻%张奇%黄萱菁
張玥%俞昊旻%張奇%黃萱菁
장모%유호민%장기%황훤정
拷贝检测%重复检测%Map-Reduce
拷貝檢測%重複檢測%Map-Reduce
고패검측%중복검측%Map-Reduce
如何对大规模文档集进行高效的拷贝检测是长期以来一直受到研究者们关注的问题.通常的拷贝检测算法都需要借助倒排索引.因此良好的索引结构对于算法性能至关重要.同时,随着文档集规模的增大,单机实现的索引已经不能满足拷贝检测的需求,需要引入分布式存储的索引.为了适应文档集规模的不断增大,良好的分布式索引应该同时具备较高的效率和可扩展性.为此该文比较了两种不同的分布式索引结构,Term-Split索引和Doc-Split索引,并且给出了Map-Reduce范式下建立这两种索引的实现,以及以这两种索引为基础的文本拷贝检测方法,Term-Split方法和Doc-Split方法.在WT10G文档集上进行的实验表明Doc-Split方法具有更好的效率和可扩展性.
如何對大規模文檔集進行高效的拷貝檢測是長期以來一直受到研究者們關註的問題.通常的拷貝檢測算法都需要藉助倒排索引.因此良好的索引結構對于算法性能至關重要.同時,隨著文檔集規模的增大,單機實現的索引已經不能滿足拷貝檢測的需求,需要引入分佈式存儲的索引.為瞭適應文檔集規模的不斷增大,良好的分佈式索引應該同時具備較高的效率和可擴展性.為此該文比較瞭兩種不同的分佈式索引結構,Term-Split索引和Doc-Split索引,併且給齣瞭Map-Reduce範式下建立這兩種索引的實現,以及以這兩種索引為基礎的文本拷貝檢測方法,Term-Split方法和Doc-Split方法.在WT10G文檔集上進行的實驗錶明Doc-Split方法具有更好的效率和可擴展性.
여하대대규모문당집진행고효적고패검측시장기이래일직수도연구자문관주적문제.통상적고패검측산법도수요차조도배색인.인차량호적색인결구대우산법성능지관중요.동시,수착문당집규모적증대,단궤실현적색인이경불능만족고패검측적수구,수요인입분포식존저적색인.위료괄응문당집규모적불단증대,량호적분포식색인응해동시구비교고적효솔화가확전성.위차해문비교료량충불동적분포식색인결구,Term-Split색인화Doc-Split색인,병차급출료Map-Reduce범식하건립저량충색인적실현,이급이저량충색인위기출적문본고패검측방법,Term-Split방법화Doc-Split방법.재WT10G문당집상진행적실험표명Doc-Split방법구유경호적효솔화가확전성.