计算机研究与发展
計算機研究與髮展
계산궤연구여발전
JOURNAL OF COMPUTER RESEARCH AND DEVELOPMENT
2010年
10期
1733-1740
,共8页
管仁初%裴志利%时小虎%杨晨%梁艳春
管仁初%裴誌利%時小虎%楊晨%樑豔春
관인초%배지리%시소호%양신%량염춘
吸引子传播算法%相似特征集%排斥特征集%仲裁特征集%文本聚类
吸引子傳播算法%相似特徵集%排斥特徵集%仲裁特徵集%文本聚類
흡인자전파산법%상사특정집%배척특정집%중재특정집%문본취류
吸引子传播算法(affinity propagation, AP)是一种新的高效聚类算法.由于AP算法简单易用,它已被广泛应用到数据挖掘的各个领域.在AP算法中,相似性度量具有重要作用.另一方面,传统的文本挖掘常采用向量空间模型和满足欧氏空间的相似性度量.这种方法的优点是简单且易于实现,但随着数据规模的膨胀,向量空间将变得高维稀疏并将导致计算复杂度快速增长.为解决此问题,给出了相似特征集、排斥特征集和仲裁特征集的概念,在这些概念的基础上提出了一种能够包含文本结构信息的非欧空间相似性度量方法.并提出了一种新的聚类算法,称之为权吸引子传播算法(weight affinity propagation, WAP).为检验提出算法的聚类效果,选用标准数据集Reuters-21578进行了验证.实验结果表明WAP明显优于k-means聚类算法、具备非线性特征的SOFM聚类算法和采用经典相似性度量的吸引子传播算法等3种经典聚类算法.
吸引子傳播算法(affinity propagation, AP)是一種新的高效聚類算法.由于AP算法簡單易用,它已被廣汎應用到數據挖掘的各箇領域.在AP算法中,相似性度量具有重要作用.另一方麵,傳統的文本挖掘常採用嚮量空間模型和滿足歐氏空間的相似性度量.這種方法的優點是簡單且易于實現,但隨著數據規模的膨脹,嚮量空間將變得高維稀疏併將導緻計算複雜度快速增長.為解決此問題,給齣瞭相似特徵集、排斥特徵集和仲裁特徵集的概唸,在這些概唸的基礎上提齣瞭一種能夠包含文本結構信息的非歐空間相似性度量方法.併提齣瞭一種新的聚類算法,稱之為權吸引子傳播算法(weight affinity propagation, WAP).為檢驗提齣算法的聚類效果,選用標準數據集Reuters-21578進行瞭驗證.實驗結果錶明WAP明顯優于k-means聚類算法、具備非線性特徵的SOFM聚類算法和採用經典相似性度量的吸引子傳播算法等3種經典聚類算法.
흡인자전파산법(affinity propagation, AP)시일충신적고효취류산법.유우AP산법간단역용,타이피엄범응용도수거알굴적각개영역.재AP산법중,상사성도량구유중요작용.령일방면,전통적문본알굴상채용향량공간모형화만족구씨공간적상사성도량.저충방법적우점시간단차역우실현,단수착수거규모적팽창,향량공간장변득고유희소병장도치계산복잡도쾌속증장.위해결차문제,급출료상사특정집、배척특정집화중재특정집적개념,재저사개념적기출상제출료일충능구포함문본결구신식적비구공간상사성도량방법.병제출료일충신적취류산법,칭지위권흡인자전파산법(weight affinity propagation, WAP).위검험제출산법적취류효과,선용표준수거집Reuters-21578진행료험증.실험결과표명WAP명현우우k-means취류산법、구비비선성특정적SOFM취류산법화채용경전상사성도량적흡인자전파산법등3충경전취류산법.