微型机与应用
微型機與應用
미형궤여응용
MICROCOMPUTER & ITS APPLICATIONS
2014年
14期
78-81
,共4页
高永兵%郭文彦%周环宇%聂知秘
高永兵%郭文彥%週環宇%聶知祕
고영병%곽문언%주배우%섭지비
K-means 算法%私人微博%初始中心点%自适应
K-means 算法%私人微博%初始中心點%自適應
K-means 산법%사인미박%초시중심점%자괄응
K-means algorithm%personal weibo%initial centers%adaptive
针对私人微博内容进行聚类研究,结合私人微博的内容和结构特点提出了基于 K-means的改进聚类算法。通过添加引用和评论内容丰富了文本内容,降低了短文本矩阵向量严重稀疏性带来的聚类算法准确性降低的影响;通过甄别“微话题”内容和改进相似度的计算,找到初始化类别并进行初步计算得到合适的类别数目和初始中心点,解决了 K-means 算法中聚类数目 K 需人工指定和初始中心点选取随机性的问题。实验结果表明,改进后的算法不仅可以自适应地得到 K 值,较普通的K-means 算法在聚类的准确率上有所提高。
針對私人微博內容進行聚類研究,結閤私人微博的內容和結構特點提齣瞭基于 K-means的改進聚類算法。通過添加引用和評論內容豐富瞭文本內容,降低瞭短文本矩陣嚮量嚴重稀疏性帶來的聚類算法準確性降低的影響;通過甄彆“微話題”內容和改進相似度的計算,找到初始化類彆併進行初步計算得到閤適的類彆數目和初始中心點,解決瞭 K-means 算法中聚類數目 K 需人工指定和初始中心點選取隨機性的問題。實驗結果錶明,改進後的算法不僅可以自適應地得到 K 值,較普通的K-means 算法在聚類的準確率上有所提高。
침대사인미박내용진행취류연구,결합사인미박적내용화결구특점제출료기우 K-means적개진취류산법。통과첨가인용화평론내용봉부료문본내용,강저료단문본구진향량엄중희소성대래적취류산법준학성강저적영향;통과견별“미화제”내용화개진상사도적계산,조도초시화유별병진행초보계산득도합괄적유별수목화초시중심점,해결료 K-means 산법중취류수목 K 수인공지정화초시중심점선취수궤성적문제。실험결과표명,개진후적산법불부가이자괄응지득도 K 치,교보통적K-means 산법재취류적준학솔상유소제고。
Aiming at clustering research on personal weibo , an improved K-means algorithm is proposed on the combination of personal weibo content and structural features . By adding the reference and comment content into text , the influence of the server data sparseness in short documents is reduced . By screened out "micro topic" and improved the similarity computing , the appropri-ate categories and the number of initial centers is found , so the problems of K-means that the number of clusters K need to man-ually specify and the initial centers is random are solved . Experimental results show that the improved algorithm can not only get the adaptive value of K , but the accuracy is also improved compared with the general K-means .