科技信息
科技信息
과기신식
SCIENTIFIC & TECHNICAL INFORMATION
2009年
4期
172-173
,共2页
特征选取%类别核心词%朴素贝叶斯%文本分类
特徵選取%類彆覈心詞%樸素貝葉斯%文本分類
특정선취%유별핵심사%박소패협사%문본분류
从人工分类的角度看,标题、摘要及关键词中的词条对于文本分类具有更重要的作用,在特征选取中低DF值的词条可能更能代表文本的类别信息.针对以上两个问题,本文提出了基于类别核心词的特征选取方法.首先,从标题、别核心词;然后,通过加权方式,强化它们在特征选取中的作用;最后在朴素贝叶斯分类方法上进行实验.实验结果表明,提出的方法能够有效提高中文文本的分类准确率.
從人工分類的角度看,標題、摘要及關鍵詞中的詞條對于文本分類具有更重要的作用,在特徵選取中低DF值的詞條可能更能代錶文本的類彆信息.針對以上兩箇問題,本文提齣瞭基于類彆覈心詞的特徵選取方法.首先,從標題、彆覈心詞;然後,通過加權方式,彊化它們在特徵選取中的作用;最後在樸素貝葉斯分類方法上進行實驗.實驗結果錶明,提齣的方法能夠有效提高中文文本的分類準確率.
종인공분류적각도간,표제、적요급관건사중적사조대우문본분류구유경중요적작용,재특정선취중저DF치적사조가능경능대표문본적유별신식.침대이상량개문제,본문제출료기우유별핵심사적특정선취방법.수선,종표제、별핵심사;연후,통과가권방식,강화타문재특정선취중적작용;최후재박소패협사분류방법상진행실험.실험결과표명,제출적방법능구유효제고중문문본적분류준학솔.