计算机工程与应用
計算機工程與應用
계산궤공정여응용
COMPUTER ENGINEERING AND APPLICATIONS
2015年
15期
129-133
,共5页
标题文本%聚类融合%聚类稳定性
標題文本%聚類融閤%聚類穩定性
표제문본%취류융합%취류은정성
title text%cluster ensemble%cluster stability
针对标题文本聚类中的聚类结果不稳定问题,提出一种基于聚类融合的标题文本聚类方法。该方法对标题文本的特征词进行筛选,将标题文本转化为特征词集合;提出基于统计和语义的相似度计算方法,计算特征词集合间的相似度;引入基于共协矩阵的聚类融合算法,得出聚类结果。实验结果表明,和传统聚类算法相比,该方法提升了标题文本聚类的稳定性。
針對標題文本聚類中的聚類結果不穩定問題,提齣一種基于聚類融閤的標題文本聚類方法。該方法對標題文本的特徵詞進行篩選,將標題文本轉化為特徵詞集閤;提齣基于統計和語義的相似度計算方法,計算特徵詞集閤間的相似度;引入基于共協矩陣的聚類融閤算法,得齣聚類結果。實驗結果錶明,和傳統聚類算法相比,該方法提升瞭標題文本聚類的穩定性。
침대표제문본취류중적취류결과불은정문제,제출일충기우취류융합적표제문본취류방법。해방법대표제문본적특정사진행사선,장표제문본전화위특정사집합;제출기우통계화어의적상사도계산방법,계산특정사집합간적상사도;인입기우공협구진적취류융합산법,득출취류결과。실험결과표명,화전통취류산법상비,해방법제승료표제문본취류적은정성。
For the title text clustering results instability problem, a title text clustering method based on clustering ensemble is proposed. It filters out the title texts’feature words, and transforms title texts into feature sets. It proposes a similarity calculation method based on statistical and semantic to calculate the similarity between feature sets. It introduces the clus-tering ensemble algorithm based on co-association matrix to get results. Experimental results show that, compared with the traditional clustering algorithm, this method improves the stability of results.