计算机应用
計算機應用
계산궤응용
COMPUTER APPLICATION
2005年
6期
1362-1365
,共4页
汉语相似重复记录%排序字段%二维链表
漢語相似重複記錄%排序字段%二維鏈錶
한어상사중복기록%배서자단%이유련표
消除重复记录可以提高数据质量.提出了按字段值种类数选择排序字段的方法.在相似重复记录的检测中,用第1个排序字段建立存储相似重复记录的二维链表,然后再用第2、第3个排序字段对二维链表中的记录进行排序-比较,以提高检测效果.为了正确地匹配汉字串,研究了由于缩写所造成的不匹配和读音、字型相似造成的输入错误.通过查找"相似汉字表"解决部分输入错误的问题,计算相似度函数判断被比较的记录是否是重复记录.实验表明,提出的方法能有效的检测汉语相似重复记录.
消除重複記錄可以提高數據質量.提齣瞭按字段值種類數選擇排序字段的方法.在相似重複記錄的檢測中,用第1箇排序字段建立存儲相似重複記錄的二維鏈錶,然後再用第2、第3箇排序字段對二維鏈錶中的記錄進行排序-比較,以提高檢測效果.為瞭正確地匹配漢字串,研究瞭由于縮寫所造成的不匹配和讀音、字型相似造成的輸入錯誤.通過查找"相似漢字錶"解決部分輸入錯誤的問題,計算相似度函數判斷被比較的記錄是否是重複記錄.實驗錶明,提齣的方法能有效的檢測漢語相似重複記錄.
소제중복기록가이제고수거질량.제출료안자단치충류수선택배서자단적방법.재상사중복기록적검측중,용제1개배서자단건립존저상사중복기록적이유련표,연후재용제2、제3개배서자단대이유련표중적기록진행배서-비교,이제고검측효과.위료정학지필배한자천,연구료유우축사소조성적불필배화독음、자형상사조성적수입착오.통과사조"상사한자표"해결부분수입착오적문제,계산상사도함수판단피비교적기록시부시중복기록.실험표명,제출적방법능유효적검측한어상사중복기록.