计算机工程与应用
計算機工程與應用
계산궤공정여응용
COMPUTER ENGINEERING AND APPLICATIONS
2014年
1期
96-100
,共5页
隐含语义分析%向量空间模型%话题发现%微博%两阶段聚类
隱含語義分析%嚮量空間模型%話題髮現%微博%兩階段聚類
은함어의분석%향량공간모형%화제발현%미박%량계단취류
Latent Semantic Analysis(LSA)%Vector Space Model(VSM)%topic detection%micro-blog%two-stage clustering
随着微博的大量普及和关注度的不断提高,微博热点话题发现已成为当前研究热点。针对于短文本、向量空间模型(VSM)文本表示方法存在高维度、稀疏,以及同义多义问题,导致难以准确度量文本相似度,提出一种基于隐含语义分析的两阶段聚类话题发现方法。引入话题热度的概念来选取具有一定关注度的微博文本,用隐含语义分析(LSA)对数据集进行建模;用层次聚类的CURE算法确定初始类中心;用K-means聚类得到热点话题的聚类结果。真实微博数据集的实验结果验证了该方法的有效性。
隨著微博的大量普及和關註度的不斷提高,微博熱點話題髮現已成為噹前研究熱點。針對于短文本、嚮量空間模型(VSM)文本錶示方法存在高維度、稀疏,以及同義多義問題,導緻難以準確度量文本相似度,提齣一種基于隱含語義分析的兩階段聚類話題髮現方法。引入話題熱度的概唸來選取具有一定關註度的微博文本,用隱含語義分析(LSA)對數據集進行建模;用層次聚類的CURE算法確定初始類中心;用K-means聚類得到熱點話題的聚類結果。真實微博數據集的實驗結果驗證瞭該方法的有效性。
수착미박적대량보급화관주도적불단제고,미박열점화제발현이성위당전연구열점。침대우단문본、향량공간모형(VSM)문본표시방법존재고유도、희소,이급동의다의문제,도치난이준학도량문본상사도,제출일충기우은함어의분석적량계단취류화제발현방법。인입화제열도적개념래선취구유일정관주도적미박문본,용은함어의분석(LSA)대수거집진행건모;용층차취류적CURE산법학정초시류중심;용K-means취류득도열점화제적취류결과。진실미박수거집적실험결과험증료해방법적유효성。
As the large popularity of micro-blog and awareness continues to improve, hot topic of micro-blog detecting has become the current research focuses. For short texts, there exist high-dimension, sparse, synonymy and polysemy problems for Vector Space Model(VSM)text presentation, making it difficult to measure the similarity of the texts accu-rately. This paper presents a two-stage cluster based on Latent Semantic Analysis(LSA)topic detection approach. Firstly, the concept of hot topic is introduced to select micro-blogs with certain attention, using LSA to model the dataset. Then CURE algorithm of hierarchical clustering is employed to determine the initial centers. Finally, the hot topic clustering results are obtained through K-means clustering. Experimental results on real micro-blog dataset verify the validity of the method.