小型微型计算机系统
小型微型計算機繫統
소형미형계산궤계통
MINI-MICRO SYSTEMS
2004年
12期
2164-2168
,共5页
缪嘉嘉%吴刚%毛捍东%杨强%邓苏
繆嘉嘉%吳剛%毛捍東%楊彊%鄧囌
무가가%오강%모한동%양강%산소
信息集成%近似重复记录%动态聚类%概率后缀树
信息集成%近似重複記錄%動態聚類%概率後綴樹
신식집성%근사중복기록%동태취류%개솔후철수
数据集成往往会形成一些近似重复记录,如何检测重复信息是数据质量研究中的一个热门课题.文中提出了一种高效的基于条件概率分布的动态聚类算法来进行近似重复记录检测.该方法在评估两个记录之间是否近似等价的问题上,解决了原来的算法忽略序列结构特点的问题,基于条件概率分布定义了记录间的距离;并根据近邻函数准则选择了一个评议聚类结果质量的准则函数,采用动态聚类算法完成对序列数据集的聚类.使用该方法,对仿真数据进行了聚类实验,都获得了比较好的聚类结果.
數據集成往往會形成一些近似重複記錄,如何檢測重複信息是數據質量研究中的一箇熱門課題.文中提齣瞭一種高效的基于條件概率分佈的動態聚類算法來進行近似重複記錄檢測.該方法在評估兩箇記錄之間是否近似等價的問題上,解決瞭原來的算法忽略序列結構特點的問題,基于條件概率分佈定義瞭記錄間的距離;併根據近鄰函數準則選擇瞭一箇評議聚類結果質量的準則函數,採用動態聚類算法完成對序列數據集的聚類.使用該方法,對倣真數據進行瞭聚類實驗,都穫得瞭比較好的聚類結果.
수거집성왕왕회형성일사근사중복기록,여하검측중복신식시수거질량연구중적일개열문과제.문중제출료일충고효적기우조건개솔분포적동태취류산법래진행근사중복기록검측.해방법재평고량개기록지간시부근사등개적문제상,해결료원래적산법홀략서렬결구특점적문제,기우조건개솔분포정의료기록간적거리;병근거근린함수준칙선택료일개평의취류결과질량적준칙함수,채용동태취류산법완성대서렬수거집적취류.사용해방법,대방진수거진행료취류실험,도획득료비교호적취류결과.