计算机应用
計算機應用
계산궤응용
COMPUTER APPLICATION
2005年
3期
666-669
,共4页
相似重复记录%混合相似度%自适应信息集成%字符串匹配
相似重複記錄%混閤相似度%自適應信息集成%字符串匹配
상사중복기록%혼합상사도%자괄응신식집성%자부천필배
检测相似重复记录是信息集成中的关键任务之一,尽管已经提出了各种检测相似重复记录的方法,但字符串匹配算法是这些检测方法中的核心.在提出的自适应信息集成算法中,用一个综合了编辑距离和标记距离的混合相似度去度量字符串之间的相似度.为了避免由于表达方式的差异而造成的字符串之间的不匹配,字符串被分割成独立的单词后按单词的第一个字符进行排序.在单词的匹配中,对拼写错误和缩写有一定的容错功能.实验结果表明,自适应信息集成方法比用Smith-Waterman和Jaro距离有更高的正确率.
檢測相似重複記錄是信息集成中的關鍵任務之一,儘管已經提齣瞭各種檢測相似重複記錄的方法,但字符串匹配算法是這些檢測方法中的覈心.在提齣的自適應信息集成算法中,用一箇綜閤瞭編輯距離和標記距離的混閤相似度去度量字符串之間的相似度.為瞭避免由于錶達方式的差異而造成的字符串之間的不匹配,字符串被分割成獨立的單詞後按單詞的第一箇字符進行排序.在單詞的匹配中,對拼寫錯誤和縮寫有一定的容錯功能.實驗結果錶明,自適應信息集成方法比用Smith-Waterman和Jaro距離有更高的正確率.
검측상사중복기록시신식집성중적관건임무지일,진관이경제출료각충검측상사중복기록적방법,단자부천필배산법시저사검측방법중적핵심.재제출적자괄응신식집성산법중,용일개종합료편집거리화표기거리적혼합상사도거도량자부천지간적상사도.위료피면유우표체방식적차이이조성적자부천지간적불필배,자부천피분할성독립적단사후안단사적제일개자부진행배서.재단사적필배중,대병사착오화축사유일정적용착공능.실험결과표명,자괄응신식집성방법비용Smith-Waterman화Jaro거리유경고적정학솔.