计算机研究与发展
計算機研究與髮展
계산궤연구여발전
JOURNAL OF COMPUTER RESEARCH AND DEVELOPMENT
2007年
10期
1774-1781
,共8页
KNN-join%数据挖掘%分类%基于距离的索引%B+树
KNN-join%數據挖掘%分類%基于距離的索引%B+樹
KNN-join%수거알굴%분류%기우거리적색인%B+수
KNN-join是一种新近才提出的操作,它在数据挖掘中有着广泛的应用.利用KNN-join的"一次一个集合"的性质,一些数据挖掘任务,例如分类、例外挖掘和聚类等,就会更加容易地进行. MuX和Goreder则是两种专为KNN-join设计的算法.为了综合利用这两种方法的优点,一种新的KNN-join并行处理方法--pgi-distance(parallel grid index-distance)--被提了出来. pgi-distance使用双层结构,可以对I/O和CPU进行同时优化;基于距离的索引能够让它更好地适应数据维度和分布的变化.由于采用的是各DBMS厂商广泛支持的B+树索引,这让pgi-distance得以成为一种更为实用的KNN-join处理方法.在合成数据集和真实数据集上的测试也表明pgi-distance是实用的和高效的.
KNN-join是一種新近纔提齣的操作,它在數據挖掘中有著廣汎的應用.利用KNN-join的"一次一箇集閤"的性質,一些數據挖掘任務,例如分類、例外挖掘和聚類等,就會更加容易地進行. MuX和Goreder則是兩種專為KNN-join設計的算法.為瞭綜閤利用這兩種方法的優點,一種新的KNN-join併行處理方法--pgi-distance(parallel grid index-distance)--被提瞭齣來. pgi-distance使用雙層結構,可以對I/O和CPU進行同時優化;基于距離的索引能夠讓它更好地適應數據維度和分佈的變化.由于採用的是各DBMS廠商廣汎支持的B+樹索引,這讓pgi-distance得以成為一種更為實用的KNN-join處理方法.在閤成數據集和真實數據集上的測試也錶明pgi-distance是實用的和高效的.
KNN-join시일충신근재제출적조작,타재수거알굴중유착엄범적응용.이용KNN-join적"일차일개집합"적성질,일사수거알굴임무,례여분류、예외알굴화취류등,취회경가용역지진행. MuX화Goreder칙시량충전위KNN-join설계적산법.위료종합이용저량충방법적우점,일충신적KNN-join병행처리방법--pgi-distance(parallel grid index-distance)--피제료출래. pgi-distance사용쌍층결구,가이대I/O화CPU진행동시우화;기우거리적색인능구양타경호지괄응수거유도화분포적변화.유우채용적시각DBMS엄상엄범지지적B+수색인,저양pgi-distance득이성위일충경위실용적KNN-join처리방법.재합성수거집화진실수거집상적측시야표명pgi-distance시실용적화고효적.