计算机工程与设计
計算機工程與設計
계산궤공정여설계
COMPUTER ENGINEERING AND DESIGN
2010年
10期
2367-2371
,共5页
文本分类%信任机制%可靠度%bata概率密度函数%自然语言处理
文本分類%信任機製%可靠度%bata概率密度函數%自然語言處理
문본분류%신임궤제%가고도%bata개솔밀도함수%자연어언처리
基于信任机制设计了一种无须特征选择的高效的线性文本分类方法.面向特征与文档类的信任关系,使用bata概率密度函数评估特征的可靠度,提出特征对文档类的忠诚度的计算模型,基于忠诚度实现简单的线性文本分类器.采用20Newsgroup、复旦中文分类语料、SEWM2007评测语料等3个具有典型特征的单标签语料集,以朴素贝叶斯、KNN为比照算法进行了比较实验.实验结果表明,相对于传统算法,该算法分类性能显著提高,对不均匀语料和高维特征处理表现出很强的稳定性,同时算法执行速度快,适于大规模文本分类.
基于信任機製設計瞭一種無鬚特徵選擇的高效的線性文本分類方法.麵嚮特徵與文檔類的信任關繫,使用bata概率密度函數評估特徵的可靠度,提齣特徵對文檔類的忠誠度的計算模型,基于忠誠度實現簡單的線性文本分類器.採用20Newsgroup、複旦中文分類語料、SEWM2007評測語料等3箇具有典型特徵的單標籤語料集,以樸素貝葉斯、KNN為比照算法進行瞭比較實驗.實驗結果錶明,相對于傳統算法,該算法分類性能顯著提高,對不均勻語料和高維特徵處理錶現齣很彊的穩定性,同時算法執行速度快,適于大規模文本分類.
기우신임궤제설계료일충무수특정선택적고효적선성문본분류방법.면향특정여문당류적신임관계,사용bata개솔밀도함수평고특정적가고도,제출특정대문당류적충성도적계산모형,기우충성도실현간단적선성문본분류기.채용20Newsgroup、복단중문분류어료、SEWM2007평측어료등3개구유전형특정적단표첨어료집,이박소패협사、KNN위비조산법진행료비교실험.실험결과표명,상대우전통산법,해산법분류성능현저제고,대불균균어료화고유특정처리표현출흔강적은정성,동시산법집행속도쾌,괄우대규모문본분류.