现代情报
現代情報
현대정보
Modern Information
2015年
9期
70-74
,共5页
巴志超%朱世伟%于俊凤%魏墨济
巴誌超%硃世偉%于俊鳳%魏墨濟
파지초%주세위%우준봉%위묵제
数字文献%短文本分类%特征选择%语义扩展%分类性能
數字文獻%短文本分類%特徵選擇%語義擴展%分類性能
수자문헌%단문본분류%특정선택%어의확전%분류성능
针对图书、期刊论文等数字文献文本特征较少而导致特征向量语义表达不够准确、分类效果差的问题,本文提出一种基于特征语义扩展的数字文献分类方法.该方法首先利用TF-IDF方法获取对数字文献文本表示能力较强、具有较高TF-IDF值的核心特征词;其次分别借助知网(Hownet)语义词典以及开放知识库维基百科(Wikipedia)对核心特征词集进行语义概念的扩展,以构建维度较低、语义丰富的概念向量空间;最后采用MaxEnt、SVM等多种算法构造分类器实现对数字文献的自动分类.实验结果表明:相比传统基于特征选择的短文本分类方法,该方法能有效地实现对短文本特征的语义扩展,提高数字文献分类的分类性能.
針對圖書、期刊論文等數字文獻文本特徵較少而導緻特徵嚮量語義錶達不夠準確、分類效果差的問題,本文提齣一種基于特徵語義擴展的數字文獻分類方法.該方法首先利用TF-IDF方法穫取對數字文獻文本錶示能力較彊、具有較高TF-IDF值的覈心特徵詞;其次分彆藉助知網(Hownet)語義詞典以及開放知識庫維基百科(Wikipedia)對覈心特徵詞集進行語義概唸的擴展,以構建維度較低、語義豐富的概唸嚮量空間;最後採用MaxEnt、SVM等多種算法構造分類器實現對數字文獻的自動分類.實驗結果錶明:相比傳統基于特徵選擇的短文本分類方法,該方法能有效地實現對短文本特徵的語義擴展,提高數字文獻分類的分類性能.
침대도서、기간논문등수자문헌문본특정교소이도치특정향량어의표체불구준학、분류효과차적문제,본문제출일충기우특정어의확전적수자문헌분류방법.해방법수선이용TF-IDF방법획취대수자문헌문본표시능력교강、구유교고TF-IDF치적핵심특정사;기차분별차조지망(Hownet)어의사전이급개방지식고유기백과(Wikipedia)대핵심특정사집진행어의개념적확전,이구건유도교저、어의봉부적개념향량공간;최후채용MaxEnt、SVM등다충산법구조분류기실현대수자문헌적자동분류.실험결과표명:상비전통기우특정선택적단문본분류방법,해방법능유효지실현대단문본특정적어의확전,제고수자문헌분류적분류성능.