计算机工程
計算機工程
계산궤공정
COMPUTER ENGINEERING
2009年
5期
56-58
,共3页
相似重复记录%抽样算法%代表点
相似重複記錄%抽樣算法%代錶點
상사중복기록%추양산법%대표점
对CURE算法进行改进,将其应用到相似重复记录的检测.提出预抽样的概念,可以有效地确定记录集中相似重复记录的分布情况,提高随机抽样的准确性.改进代表点选择方法,提出基于距离影响因子的代表点选取策略,既可以根据数据集的密度进行代表点的选取,又能适当选取有一定意义的边缘点作为代表点,提高代表点选取的合理性.理论分析和实验表明,该方法在保证执行效率的情况下有很高的准确性.
對CURE算法進行改進,將其應用到相似重複記錄的檢測.提齣預抽樣的概唸,可以有效地確定記錄集中相似重複記錄的分佈情況,提高隨機抽樣的準確性.改進代錶點選擇方法,提齣基于距離影響因子的代錶點選取策略,既可以根據數據集的密度進行代錶點的選取,又能適噹選取有一定意義的邊緣點作為代錶點,提高代錶點選取的閤理性.理論分析和實驗錶明,該方法在保證執行效率的情況下有很高的準確性.
대CURE산법진행개진,장기응용도상사중복기록적검측.제출예추양적개념,가이유효지학정기록집중상사중복기록적분포정황,제고수궤추양적준학성.개진대표점선택방법,제출기우거리영향인자적대표점선취책략,기가이근거수거집적밀도진행대표점적선취,우능괄당선취유일정의의적변연점작위대표점,제고대표점선취적합이성.이론분석화실험표명,해방법재보증집행효솔적정황하유흔고적준학성.