计算机应用
計算機應用
계산궤응용
COMPUTER APPLICATION
2013年
9期
2493-2496
,共4页
Web信息整合%相似重复记录%动态权重%模糊实体匹配
Web信息整閤%相似重複記錄%動態權重%模糊實體匹配
Web신식정합%상사중복기록%동태권중%모호실체필배
Web information integration%approximately duplicate record%dynamic weight%fuzzy entity matching
针对现有数据去重方法中存在的时间效率和检测精度低的问题,结合Web信息整合的特点,提出一种逐级聚类的数据去重方法(SCDE).首先通过关键属性分割和Canopy聚类将数据划分成小记录集,然后精确检测相似重复记录,并提出基于动态权重的模糊实体匹配策略,采用动态权重赋值,降低属性缺失对记录相似度计算带来的影响,并对名称的特殊性进行处理,提高匹配准确率.实验结果显示:该方法在时间效率和检测精度上均优于传统算法,其中准确率提高12.6%.该方法已应用于林业黄页系统中,取得了较好的应用效果.
針對現有數據去重方法中存在的時間效率和檢測精度低的問題,結閤Web信息整閤的特點,提齣一種逐級聚類的數據去重方法(SCDE).首先通過關鍵屬性分割和Canopy聚類將數據劃分成小記錄集,然後精確檢測相似重複記錄,併提齣基于動態權重的模糊實體匹配策略,採用動態權重賦值,降低屬性缺失對記錄相似度計算帶來的影響,併對名稱的特殊性進行處理,提高匹配準確率.實驗結果顯示:該方法在時間效率和檢測精度上均優于傳統算法,其中準確率提高12.6%.該方法已應用于林業黃頁繫統中,取得瞭較好的應用效果.
침대현유수거거중방법중존재적시간효솔화검측정도저적문제,결합Web신식정합적특점,제출일충축급취류적수거거중방법(SCDE).수선통과관건속성분할화Canopy취류장수거화분성소기록집,연후정학검측상사중복기록,병제출기우동태권중적모호실체필배책략,채용동태권중부치,강저속성결실대기록상사도계산대래적영향,병대명칭적특수성진행처리,제고필배준학솔.실험결과현시:해방법재시간효솔화검측정도상균우우전통산법,기중준학솔제고12.6%.해방법이응용우임업황혈계통중,취득료교호적응용효과.