电子与信息学报
電子與信息學報
전자여신식학보
JOURNAL OF ELECTRONICS & INFORMATION TECHNOLOGY
2010年
11期
2695-2700
,共6页
文本聚类%上下文树核%统计语言模型%隐含狄利克雷分配(LDA)
文本聚類%上下文樹覈%統計語言模型%隱含狄利剋雷分配(LDA)
문본취류%상하문수핵%통계어언모형%은함적리극뢰분배(LDA)
该文针对上下文树核用于文本表示时缺乏语义信息的问题,提出了一种面向隐含主题的上下文树核构造方法.首先采用隐含狄利克雷分配将文本中的词语映射到隐含主题空间,然后以隐含主题为单位建立上下文树模型,最后利用模型间的互信息构造上下文树核.该方法以词的语义类别来定义文本的生成模型,解决了基于词的文本建模时所遇到的统计数据的稀疏性问题.在文本数据集上的聚类实验结果表明,文中提出的上下文树核能够更好地度量文本间主题的相似性,提高了文本聚类的性能.
該文針對上下文樹覈用于文本錶示時缺乏語義信息的問題,提齣瞭一種麵嚮隱含主題的上下文樹覈構造方法.首先採用隱含狄利剋雷分配將文本中的詞語映射到隱含主題空間,然後以隱含主題為單位建立上下文樹模型,最後利用模型間的互信息構造上下文樹覈.該方法以詞的語義類彆來定義文本的生成模型,解決瞭基于詞的文本建模時所遇到的統計數據的稀疏性問題.在文本數據集上的聚類實驗結果錶明,文中提齣的上下文樹覈能夠更好地度量文本間主題的相似性,提高瞭文本聚類的性能.
해문침대상하문수핵용우문본표시시결핍어의신식적문제,제출료일충면향은함주제적상하문수핵구조방법.수선채용은함적리극뢰분배장문본중적사어영사도은함주제공간,연후이은함주제위단위건립상하문수모형,최후이용모형간적호신식구조상하문수핵.해방법이사적어의유별래정의문본적생성모형,해결료기우사적문본건모시소우도적통계수거적희소성문제.재문본수거집상적취류실험결과표명,문중제출적상하문수핵능구경호지도량문본간주제적상사성,제고료문본취류적성능.