计算机科学
計算機科學
계산궤과학
COMPUTER SCIENCE
2009年
3期
142-145
,共4页
短文本%本体%知网%文本分类%语义%义元
短文本%本體%知網%文本分類%語義%義元
단문본%본체%지망%문본분류%어의%의원
短文本自身长度较短,描述概念能力弱,常用文本分类方法都不太适用于短文本分类.提出了基于领域词语本体的短文本分类方法.首先抽取领域高频词作为特征词,借助知网从语义方面将特征词扩展为概念和义元,通过计算不同概念所包含相同义元的信息量来衡量词的相似度,从而进行分类.对比实验表明,该方法在一定程度上弥补了短文本特征不足的缺点,且提高了准确率和召回率.
短文本自身長度較短,描述概唸能力弱,常用文本分類方法都不太適用于短文本分類.提齣瞭基于領域詞語本體的短文本分類方法.首先抽取領域高頻詞作為特徵詞,藉助知網從語義方麵將特徵詞擴展為概唸和義元,通過計算不同概唸所包含相同義元的信息量來衡量詞的相似度,從而進行分類.對比實驗錶明,該方法在一定程度上瀰補瞭短文本特徵不足的缺點,且提高瞭準確率和召迴率.
단문본자신장도교단,묘술개념능력약,상용문본분류방법도불태괄용우단문본분류.제출료기우영역사어본체적단문본분류방법.수선추취영역고빈사작위특정사,차조지망종어의방면장특정사확전위개념화의원,통과계산불동개념소포함상동의원적신식량래형량사적상사도,종이진행분류.대비실험표명,해방법재일정정도상미보료단문본특정불족적결점,차제고료준학솔화소회솔.