计算机应用
計算機應用
계산궤응용
COMPUTER APPLICATION
2012年
12期
3274-3277
,共4页
谱聚类%文本聚类%大数据集
譜聚類%文本聚類%大數據集
보취류%문본취류%대수거집
针对谱聚类存在计算瓶颈的问题,提出了一种快速的集成算法,称为间接谱聚类.它首先运用K-Means算法对数据集进行过分聚类,然后把每个过分簇看成一个基本对象,最后在过分簇的级别上利用标准谱聚类来完成总体的聚类.将该思想应用于大文本数据集的聚类问题后,过分簇中心之间的相似性度度量方法可以采用常用的余弦距离法.在20-Newgroups文本数据上的实验结果表明:间接谱聚类算法在聚类准确性上比K-Means算法平均高出14.72%;比规范割谱聚类仅低0.88%,但算法所需的计算时间平均不到规范割谱聚类的1/16,且随着数据集的增大当规范割谱聚类遭遇计算瓶颈时,提出的算法却能快速地给出次优解.
針對譜聚類存在計算瓶頸的問題,提齣瞭一種快速的集成算法,稱為間接譜聚類.它首先運用K-Means算法對數據集進行過分聚類,然後把每箇過分簇看成一箇基本對象,最後在過分簇的級彆上利用標準譜聚類來完成總體的聚類.將該思想應用于大文本數據集的聚類問題後,過分簇中心之間的相似性度度量方法可以採用常用的餘絃距離法.在20-Newgroups文本數據上的實驗結果錶明:間接譜聚類算法在聚類準確性上比K-Means算法平均高齣14.72%;比規範割譜聚類僅低0.88%,但算法所需的計算時間平均不到規範割譜聚類的1/16,且隨著數據集的增大噹規範割譜聚類遭遇計算瓶頸時,提齣的算法卻能快速地給齣次優解.
침대보취류존재계산병경적문제,제출료일충쾌속적집성산법,칭위간접보취류.타수선운용K-Means산법대수거집진행과분취류,연후파매개과분족간성일개기본대상,최후재과분족적급별상이용표준보취류래완성총체적취류.장해사상응용우대문본수거집적취류문제후,과분족중심지간적상사성도도량방법가이채용상용적여현거리법.재20-Newgroups문본수거상적실험결과표명:간접보취류산법재취류준학성상비K-Means산법평균고출14.72%;비규범할보취류부저0.88%,단산법소수적계산시간평균불도규범할보취류적1/16,차수착수거집적증대당규범할보취류조우계산병경시,제출적산법각능쾌속지급출차우해.