计算机工程与设计
計算機工程與設計
계산궤공정여설계
COMPUTER ENGINEERING AND DESIGN
2010年
10期
2381-2383,2387
,共4页
任姚鹏%陈立潮%张英俊%袁英
任姚鵬%陳立潮%張英俊%袁英
임요붕%진립조%장영준%원영
文本聚类%向量空间模型%权重计算方法%词汇语义相似度%知网
文本聚類%嚮量空間模型%權重計算方法%詞彙語義相似度%知網
문본취류%향량공간모형%권중계산방법%사회어의상사도%지망
为进一步改善目前大多数基于向量空间模型(VSM)的文本聚类算法的效果,研究了文本聚类的基础和关键环节--文本间相似度的计算,其中一个重要步骤就是计算各文本中特征词的权重,该计算的合理性和有效性直接影响到文本相似度的准确性和聚类的效果.传统的VSM特征权重计算方法-TF-IDF,没有考虑语义相似的词语在文本集中的分布情况,针对该问题,在基于"知网"的词语语义相似度分析基础上,提出了一种改进的TF-IDF权重计算方法.实验结果表明,该算法是有效可行的,且在一定程度上提高了文本聚类的查准率和查全率.
為進一步改善目前大多數基于嚮量空間模型(VSM)的文本聚類算法的效果,研究瞭文本聚類的基礎和關鍵環節--文本間相似度的計算,其中一箇重要步驟就是計算各文本中特徵詞的權重,該計算的閤理性和有效性直接影響到文本相似度的準確性和聚類的效果.傳統的VSM特徵權重計算方法-TF-IDF,沒有攷慮語義相似的詞語在文本集中的分佈情況,針對該問題,在基于"知網"的詞語語義相似度分析基礎上,提齣瞭一種改進的TF-IDF權重計算方法.實驗結果錶明,該算法是有效可行的,且在一定程度上提高瞭文本聚類的查準率和查全率.
위진일보개선목전대다수기우향량공간모형(VSM)적문본취류산법적효과,연구료문본취류적기출화관건배절--문본간상사도적계산,기중일개중요보취취시계산각문본중특정사적권중,해계산적합이성화유효성직접영향도문본상사도적준학성화취류적효과.전통적VSM특정권중계산방법-TF-IDF,몰유고필어의상사적사어재문본집중적분포정황,침대해문제,재기우"지망"적사어어의상사도분석기출상,제출료일충개진적TF-IDF권중계산방법.실험결과표명,해산법시유효가행적,차재일정정도상제고료문본취류적사준솔화사전솔.