计算机学报
計算機學報
계산궤학보
CHINESE JOURNAL OF COMPUTERS
2011年
5期
856-864
,共9页
文本聚类%词项语义相似度%文本相似度%自然语言处理
文本聚類%詞項語義相似度%文本相似度%自然語言處理
문본취류%사항어의상사도%문본상사도%자연어언처리
传统的文本相似度量方法大多采用TF-IDF方法把文本建模为词频向量,利用余弦相似度量等方法计算文本之间的相似度.这些方法忽略了文本中词项的语义信息.改进的基于语义的文本相似度量方法在传统词频向量中扩充了语义相似的词项,进一步增加了文本表示向量的维度,但不能很好地反映两篇文本之间的相似程度.文中在TF-IDF模型基础上分析文本中重要词汇的语义信息,提出了一种新的文本相似度量方法.该方法首先应用自然语言处理技术对文本进行预处理,然后利用TF-IDF方法寻找文本中具有较高TF-IDF值的重要词项.借助外部词典分析词项之间的语义相似度,结合该文提出的词项相似度加权树以及文本语义相似度定义计算两篇文本之间的相似度.最后利用文本相似度在基准文本数据集合上进行聚类实验.实验结果表明文中提出的方法在基于F-度量值标准上优于TF-IDF以及另一种基于词项语义相似性的方法.
傳統的文本相似度量方法大多採用TF-IDF方法把文本建模為詞頻嚮量,利用餘絃相似度量等方法計算文本之間的相似度.這些方法忽略瞭文本中詞項的語義信息.改進的基于語義的文本相似度量方法在傳統詞頻嚮量中擴充瞭語義相似的詞項,進一步增加瞭文本錶示嚮量的維度,但不能很好地反映兩篇文本之間的相似程度.文中在TF-IDF模型基礎上分析文本中重要詞彙的語義信息,提齣瞭一種新的文本相似度量方法.該方法首先應用自然語言處理技術對文本進行預處理,然後利用TF-IDF方法尋找文本中具有較高TF-IDF值的重要詞項.藉助外部詞典分析詞項之間的語義相似度,結閤該文提齣的詞項相似度加權樹以及文本語義相似度定義計算兩篇文本之間的相似度.最後利用文本相似度在基準文本數據集閤上進行聚類實驗.實驗結果錶明文中提齣的方法在基于F-度量值標準上優于TF-IDF以及另一種基于詞項語義相似性的方法.
전통적문본상사도량방법대다채용TF-IDF방법파문본건모위사빈향량,이용여현상사도량등방법계산문본지간적상사도.저사방법홀략료문본중사항적어의신식.개진적기우어의적문본상사도량방법재전통사빈향량중확충료어의상사적사항,진일보증가료문본표시향량적유도,단불능흔호지반영량편문본지간적상사정도.문중재TF-IDF모형기출상분석문본중중요사회적어의신식,제출료일충신적문본상사도량방법.해방법수선응용자연어언처리기술대문본진행예처리,연후이용TF-IDF방법심조문본중구유교고TF-IDF치적중요사항.차조외부사전분석사항지간적어의상사도,결합해문제출적사항상사도가권수이급문본어의상사도정의계산량편문본지간적상사도.최후이용문본상사도재기준문본수거집합상진행취류실험.실험결과표명문중제출적방법재기우F-도량치표준상우우TF-IDF이급령일충기우사항어의상사성적방법.