南昌航空大学学报(自然科学版)
南昌航空大學學報(自然科學版)
남창항공대학학보(자연과학판)
Journal of Nanchang Hangkong University(Natural Sciences)
2015年
3期
32-37
,共6页
周雪梅%闫用杰%程山英%刘逸哲
週雪梅%閆用傑%程山英%劉逸哲
주설매%염용걸%정산영%류일철
网络舆情%SinglePass%话题检测%文本重构
網絡輿情%SinglePass%話題檢測%文本重構
망락여정%SinglePass%화제검측%문본중구
net-mediated public sentiment%SinglePass%topic detection%text reconstruction
SinglePass聚类算法是话题发现中最常用的文本聚类算法,且广泛地用于话题检测和跟踪中. 但它的聚类结果并不理想,此外,SinglePass在对报道与话题进行相似度匹配时导致了处理速度的降低. 基于这2个问题,本研究提出了一种文本重构思想. 即通过对论坛或网页信息的再组织,将和话题相关的主要信息集中在一起形成主题块,其余的部分形成细节块.在此基础上,对SinglePass聚类算法进行了改进. 实验结果证明:改进的SinglePass聚类算法有效地解决了文本特征矩阵稀疏的问题,并能够准确并及时地识别网络中的热点话题,同时展示话题的层次性结构.
SinglePass聚類算法是話題髮現中最常用的文本聚類算法,且廣汎地用于話題檢測和跟蹤中. 但它的聚類結果併不理想,此外,SinglePass在對報道與話題進行相似度匹配時導緻瞭處理速度的降低. 基于這2箇問題,本研究提齣瞭一種文本重構思想. 即通過對論罈或網頁信息的再組織,將和話題相關的主要信息集中在一起形成主題塊,其餘的部分形成細節塊.在此基礎上,對SinglePass聚類算法進行瞭改進. 實驗結果證明:改進的SinglePass聚類算法有效地解決瞭文本特徵矩陣稀疏的問題,併能夠準確併及時地識彆網絡中的熱點話題,同時展示話題的層次性結構.
SinglePass취류산법시화제발현중최상용적문본취류산법,차엄범지용우화제검측화근종중. 단타적취류결과병불이상,차외,SinglePass재대보도여화제진행상사도필배시도치료처리속도적강저. 기우저2개문제,본연구제출료일충문본중구사상. 즉통과대론단혹망혈신식적재조직,장화화제상관적주요신식집중재일기형성주제괴,기여적부분형성세절괴.재차기출상,대SinglePass취류산법진행료개진. 실험결과증명:개진적SinglePass취류산법유효지해결료문본특정구진희소적문제,병능구준학병급시지식별망락중적열점화제,동시전시화제적층차성결구.
SinglePass is a very common text clustering algorithm, which is widely used in topic detection and tracking. But in process of SinglePass algorithm, clustering result is not satisfactory, and furthermore, similarity matching reduces processing speed. Focusing on the two defects, the idea of reconstructing text is put forward, which considers the typical features of a topic as theme part and the content as details part through the reorganization of the forum or web information. On this basis, SinglePass clustering algorithm is improved. The results of the experiment prove that this method can solve the problem of sparse sample characteristics effectively, detect network hot topics timely and accurately, display the hierarchical structure at the same time.