计算机应用研究
計算機應用研究
계산궤응용연구
APPLICATION RESEARCH OF COMPUTERS
2013年
9期
2736-2739
,共4页
陈爽%刁兴春%宋金玉%曹建军%丁晨路
陳爽%刁興春%宋金玉%曹建軍%丁晨路
진상%조흥춘%송금옥%조건군%정신로
数据清洗%相似重复记录%变步长伸缩窗口%动态调整等级%基本邻近排序算法
數據清洗%相似重複記錄%變步長伸縮窗口%動態調整等級%基本鄰近排序算法
수거청세%상사중복기록%변보장신축창구%동태조정등급%기본린근배서산법
data cleaning%approximately duplicate records%changing step flexible window%dynamic adjusting ranking%SNM algorithm
对基本邻近排序算法(basic sorted-neighborhood method,SNM)进行分析,指出其不足,提出了SNM算法的一种改进方法.采用变步长伸缩窗口,动态改变检测窗口大小,避免漏配问题,并减少不必要的比较.采用动态调整等级法,根据记录相似度调整字段等级,并通过等级法将字段等级转换为权重,解决了人为赋予固定权重主观性强、不准确的问题.通过对实际系统中的数据进行测试,验证了方法的有效性和优越性.同时,这两种方法适用于大多数基于排序—合并的相似重复记录检测方法,提高了相应方法的效率和准确度.
對基本鄰近排序算法(basic sorted-neighborhood method,SNM)進行分析,指齣其不足,提齣瞭SNM算法的一種改進方法.採用變步長伸縮窗口,動態改變檢測窗口大小,避免漏配問題,併減少不必要的比較.採用動態調整等級法,根據記錄相似度調整字段等級,併通過等級法將字段等級轉換為權重,解決瞭人為賦予固定權重主觀性彊、不準確的問題.通過對實際繫統中的數據進行測試,驗證瞭方法的有效性和優越性.同時,這兩種方法適用于大多數基于排序—閤併的相似重複記錄檢測方法,提高瞭相應方法的效率和準確度.
대기본린근배서산법(basic sorted-neighborhood method,SNM)진행분석,지출기불족,제출료SNM산법적일충개진방법.채용변보장신축창구,동태개변검측창구대소,피면루배문제,병감소불필요적비교.채용동태조정등급법,근거기록상사도조정자단등급,병통과등급법장자단등급전환위권중,해결료인위부여고정권중주관성강、불준학적문제.통과대실제계통중적수거진행측시,험증료방법적유효성화우월성.동시,저량충방법괄용우대다수기우배서—합병적상사중복기록검측방법,제고료상응방법적효솔화준학도.