计算机研究与发展
計算機研究與髮展
계산궤연구여발전
JOURNAL OF COMPUTER RESEARCH AND DEVELOPMENT
2005年
12期
2155-2160
,共6页
陈文亮%朱靖波%朱慕华%姚天顺
陳文亮%硃靖波%硃慕華%姚天順
진문량%주정파%주모화%요천순
文本分类%知识获取%领域知识%文本表示
文本分類%知識穫取%領域知識%文本錶示
문본분류%지식획취%영역지식%문본표시
为提高文本分类性能,提出一种结合机器学习和领域词典的文本特征表示方法.基于领域词典的文本特征表示方法可以增强文本特征表示能力,并降低文本特征空间维数,但是领域词典存在覆盖度不足的问题.为此,提出一种学习模型--自划分模型--来解决这个覆盖度不足的问题.实验结果表明,采用基于自划分模型的领域特征属性作为文本特征,可以提高文本分类性能,特别是特征数目少的情况下,该方法表现出很好的分类效果.相对于传统词文本特征方法,在特征数为500时分类的F1值提高6.58%.
為提高文本分類性能,提齣一種結閤機器學習和領域詞典的文本特徵錶示方法.基于領域詞典的文本特徵錶示方法可以增彊文本特徵錶示能力,併降低文本特徵空間維數,但是領域詞典存在覆蓋度不足的問題.為此,提齣一種學習模型--自劃分模型--來解決這箇覆蓋度不足的問題.實驗結果錶明,採用基于自劃分模型的領域特徵屬性作為文本特徵,可以提高文本分類性能,特彆是特徵數目少的情況下,該方法錶現齣很好的分類效果.相對于傳統詞文本特徵方法,在特徵數為500時分類的F1值提高6.58%.
위제고문본분류성능,제출일충결합궤기학습화영역사전적문본특정표시방법.기우영역사전적문본특정표시방법가이증강문본특정표시능력,병강저문본특정공간유수,단시영역사전존재복개도불족적문제.위차,제출일충학습모형--자화분모형--래해결저개복개도불족적문제.실험결과표명,채용기우자화분모형적영역특정속성작위문본특정,가이제고문본분류성능,특별시특정수목소적정황하,해방법표현출흔호적분류효과.상대우전통사문본특정방법,재특정수위500시분류적F1치제고6.58%.