计算机工程
計算機工程
계산궤공정
COMPUTER ENGINEERING
2004年
15期
22-23,71
,共3页
大规模文本处理%相似文本搜索%复制检测
大規模文本處理%相似文本搜索%複製檢測
대규모문본처리%상사문본수색%복제검측
相似文本的快速搜索是大规模文本处理需要解决的基本问题.从两方面改进了Udi的相似文本搜索方法,通过Hash把集合映射成ID,从而得到更快的集合比较算法,重新定义了相似关系,能够减少误判,同时对有固定格式的文本也有更好的效果.
相似文本的快速搜索是大規模文本處理需要解決的基本問題.從兩方麵改進瞭Udi的相似文本搜索方法,通過Hash把集閤映射成ID,從而得到更快的集閤比較算法,重新定義瞭相似關繫,能夠減少誤判,同時對有固定格式的文本也有更好的效果.
상사문본적쾌속수색시대규모문본처리수요해결적기본문제.종량방면개진료Udi적상사문본수색방법,통과Hash파집합영사성ID,종이득도경쾌적집합비교산법,중신정의료상사관계,능구감소오판,동시대유고정격식적문본야유경호적효과.