计算机工程与科学
計算機工程與科學
계산궤공정여과학
COMPUTER ENGINEERING & SCIENCE
2013年
2期
103-108
,共6页
知网%向量模型%词汇链%文本聚类
知網%嚮量模型%詞彙鏈%文本聚類
지망%향량모형%사회련%문본취류
文本聚类算法面临着文本向量高维和极度稀疏的问题,传统降维方法多数是在假设关键词相互独立的前提下,通过统计的方法进行特征提取,这种方法往往忽略了文本在上下文语境中的语义关系,导致文本语义大量丢失.利用《知网》知识库,通过计算语义类相似度,构建了带权值的多条词汇链,根据权值大小,从中选取权值最大和次大的前两个词汇链组成代表文本的关键词序列,在此基础上提出了基于主题词汇链的文本聚类算法—TCABTLC,不但可以解决文本向量高维和稀疏导致的聚类算法运行效率低的问题,而且得到了较好的聚类效果.实验表明,在保持较好准确率下,该聚类算法的时间效率得到了大幅度提高.
文本聚類算法麵臨著文本嚮量高維和極度稀疏的問題,傳統降維方法多數是在假設關鍵詞相互獨立的前提下,通過統計的方法進行特徵提取,這種方法往往忽略瞭文本在上下文語境中的語義關繫,導緻文本語義大量丟失.利用《知網》知識庫,通過計算語義類相似度,構建瞭帶權值的多條詞彙鏈,根據權值大小,從中選取權值最大和次大的前兩箇詞彙鏈組成代錶文本的關鍵詞序列,在此基礎上提齣瞭基于主題詞彙鏈的文本聚類算法—TCABTLC,不但可以解決文本嚮量高維和稀疏導緻的聚類算法運行效率低的問題,而且得到瞭較好的聚類效果.實驗錶明,在保持較好準確率下,該聚類算法的時間效率得到瞭大幅度提高.
문본취류산법면림착문본향량고유화겁도희소적문제,전통강유방법다수시재가설관건사상호독립적전제하,통과통계적방법진행특정제취,저충방법왕왕홀략료문본재상하문어경중적어의관계,도치문본어의대량주실.이용《지망》지식고,통과계산어의류상사도,구건료대권치적다조사회련,근거권치대소,종중선취권치최대화차대적전량개사회련조성대표문본적관건사서렬,재차기출상제출료기우주제사회련적문본취류산법—TCABTLC,불단가이해결문본향량고유화희소도치적취류산법운행효솔저적문제,이차득도료교호적취류효과.실험표명,재보지교호준학솔하,해취류산법적시간효솔득도료대폭도제고.