河北省科学院学报
河北省科學院學報
하북성과학원학보
JOURNAL OF THE HEBEI ACADEMY OF SCIENCES
2014年
2期
79-82
,共4页
本体%文本聚类%概念主题%WordNet
本體%文本聚類%概唸主題%WordNet
본체%문본취류%개념주제%WordNet
文本聚类作为一种自动化程度较高的无监督机器学习方法,能够实现对文本信息的有效组织、摘要和导航,近年来已经广泛应用在信息检索领域.笔者针对使用向量空间模型进行聚类时对于同义词和多义词的处理存在的缺陷,提出了基于本体的文本聚类模型.首先使用WordNet词典对文档中的词进行语义标注,得到文档的概念集合;然后对每个文档的概念集合进行概念聚类,生成文档的概念主题;最后通过计算主题的相似度完成文本聚类.该模型减少了相似度计算量,改善了聚类结果和聚类性能.
文本聚類作為一種自動化程度較高的無鑑督機器學習方法,能夠實現對文本信息的有效組織、摘要和導航,近年來已經廣汎應用在信息檢索領域.筆者針對使用嚮量空間模型進行聚類時對于同義詞和多義詞的處理存在的缺陷,提齣瞭基于本體的文本聚類模型.首先使用WordNet詞典對文檔中的詞進行語義標註,得到文檔的概唸集閤;然後對每箇文檔的概唸集閤進行概唸聚類,生成文檔的概唸主題;最後通過計算主題的相似度完成文本聚類.該模型減少瞭相似度計算量,改善瞭聚類結果和聚類性能.
문본취류작위일충자동화정도교고적무감독궤기학습방법,능구실현대문본신식적유효조직、적요화도항,근년래이경엄범응용재신식검색영역.필자침대사용향량공간모형진행취류시대우동의사화다의사적처리존재적결함,제출료기우본체적문본취류모형.수선사용WordNet사전대문당중적사진행어의표주,득도문당적개념집합;연후대매개문당적개념집합진행개념취류,생성문당적개념주제;최후통과계산주제적상사도완성문본취류.해모형감소료상사도계산량,개선료취류결과화취류성능.