北京电子科技学院学报
北京電子科技學院學報
북경전자과기학원학보
JOURNAL OF BEIJING ELECTRONIC SCIENCE AND TECHNOLOGY INSTITUTE
2011年
4期
16-22,29
,共8页
微博短文本%语义相似度%名词
微博短文本%語義相似度%名詞
미박단문본%어의상사도%명사
Keyword%micro blog%semantic similarity%noun
微博具有传播快、数量大、语言简练等特点,对舆情分析提出了更高要求。从微博短文本中提取特征用来计算相似度时,现有的字符串匹配方法在语义分析方面存在局限性。因此本文从语义角度提出一种基于名词语义的微博相似度算法。该算法将名词集合作为微博特征,利用《知网》词典树状结构,计算得到微博短文本间的相似度。中等规模微博数据集实验表明,本文提出的算法能够准确判断微博主题含义,同一类别微博相似度90%以上分布在0.6—1.0之间,可为后续微博聚类服务。
微博具有傳播快、數量大、語言簡練等特點,對輿情分析提齣瞭更高要求。從微博短文本中提取特徵用來計算相似度時,現有的字符串匹配方法在語義分析方麵存在跼限性。因此本文從語義角度提齣一種基于名詞語義的微博相似度算法。該算法將名詞集閤作為微博特徵,利用《知網》詞典樹狀結構,計算得到微博短文本間的相似度。中等規模微博數據集實驗錶明,本文提齣的算法能夠準確判斷微博主題含義,同一類彆微博相似度90%以上分佈在0.6—1.0之間,可為後續微博聚類服務。
미박구유전파쾌、수량대、어언간련등특점,대여정분석제출료경고요구。종미박단문본중제취특정용래계산상사도시,현유적자부천필배방법재어의분석방면존재국한성。인차본문종어의각도제출일충기우명사어의적미박상사도산법。해산법장명사집합작위미박특정,이용《지망》사전수상결구,계산득도미박단문본간적상사도。중등규모미박수거집실험표명,본문제출적산법능구준학판단미박주제함의,동일유별미박상사도90%이상분포재0.6—1.0지간,가위후속미박취류복무。
To capture micro blogs' features for public opinion analysis, common metnocls using string matching have their limits in semantic analysis. In this paper, an algorithm that computes micro blogs' similarity based on nouns' semantics is proposed. The algorithm uses set of nouns as micro blog's feature, and computes the similarities of the short texts of micro blogs based on the tree structure of "HowNet" dictionary. The experimental result on a middle size of micro blogs shows that the algorithm can get the subject accurately, and more than 90% of the similarities of micro blogs from the same class are distribution in O. 6 to 1, which can help the work of clustering.