计算机系统应用
計算機繫統應用
계산궤계통응용
APPLICATIONS OF THE COMPUTER SYSTEMS
2014年
8期
163-167
,共5页
概率潜在语义分析%话题发现%微博%Kmeans
概率潛在語義分析%話題髮現%微博%Kmeans
개솔잠재어의분석%화제발현%미박%Kmeans
probabilistic latent semantic analysis%topic detection%microblog%Kmeans
微博具有长度短、实时传播、结构复杂以及变形词多等特点,传统的向量空间模型(VSM)文本表示方法和隐含语义分析(LSA)无法很好的对其进行建模。提出了一种基于概率潜在语义分析(pLSA)和 K 均值聚类(Kmeans)的二阶段聚类算法,此外通过定义微博热度分析和排序,有效地支持微博热点话题发现。实验表明,此方法能有效地进行话题聚类并检测出热点话题。
微博具有長度短、實時傳播、結構複雜以及變形詞多等特點,傳統的嚮量空間模型(VSM)文本錶示方法和隱含語義分析(LSA)無法很好的對其進行建模。提齣瞭一種基于概率潛在語義分析(pLSA)和 K 均值聚類(Kmeans)的二階段聚類算法,此外通過定義微博熱度分析和排序,有效地支持微博熱點話題髮現。實驗錶明,此方法能有效地進行話題聚類併檢測齣熱點話題。
미박구유장도단、실시전파、결구복잡이급변형사다등특점,전통적향량공간모형(VSM)문본표시방법화은함어의분석(LSA)무법흔호적대기진행건모。제출료일충기우개솔잠재어의분석(pLSA)화 K 균치취류(Kmeans)적이계단취류산법,차외통과정의미박열도분석화배서,유효지지지미박열점화제발현。실험표명,차방법능유효지진행화제취류병검측출열점화제。
Microblog has the characteristic of short length, complex structure and words deformation. Therefore, traditional vector space model (VSM) and latent semantic analysis (LSA) are not suitable for modeling them. In this paper, a two stage clustering algorithm based on probabilistic latent semantic analysis (pLSA) and Kmeans clustering (Kmeans) is proposed. Besides, this paper also presents the definition of popularity and mechanism of sorting the topics. Experiments show that our method can effectively cluster topics and be applied to microblog hot topic detection.