计算机应用
計算機應用
계산궤응용
COMPUTER APPLICATION
2009年
12期
3303-3306
,共4页
文本分类%特征概率标准差%特征离散度%特征分布%Beta概率密度函数%自然语言处理
文本分類%特徵概率標準差%特徵離散度%特徵分佈%Beta概率密度函數%自然語言處理
문본분류%특정개솔표준차%특정리산도%특정분포%Beta개솔밀도함수%자연어언처리
针对文本分类问题,基于特征分布评估权值调节特征概率标准差设计了一种无须特征选择的高效的线性文本分类器.该算法的基本思路是使用特征概率标准差量化特征在文档类中的离散度,并作为特征的基础权重,同时以后验概率的Beta分布函数为基础,运用概率确定性密度函数,评估特征在类别中的分布信息得到特征分布权值,将其调节基础权重得到特征权重,实现了线性文本分类器.在20Newsgroup、复旦中文分类语料、Reuters-21578三个语料集进行了比较实验,实验结果表明,新算法分类性能相对传统算法优势显著,且稳定、高效、实用,适于大规模文本分类任务.
針對文本分類問題,基于特徵分佈評估權值調節特徵概率標準差設計瞭一種無鬚特徵選擇的高效的線性文本分類器.該算法的基本思路是使用特徵概率標準差量化特徵在文檔類中的離散度,併作為特徵的基礎權重,同時以後驗概率的Beta分佈函數為基礎,運用概率確定性密度函數,評估特徵在類彆中的分佈信息得到特徵分佈權值,將其調節基礎權重得到特徵權重,實現瞭線性文本分類器.在20Newsgroup、複旦中文分類語料、Reuters-21578三箇語料集進行瞭比較實驗,實驗結果錶明,新算法分類性能相對傳統算法優勢顯著,且穩定、高效、實用,適于大規模文本分類任務.
침대문본분류문제,기우특정분포평고권치조절특정개솔표준차설계료일충무수특정선택적고효적선성문본분류기.해산법적기본사로시사용특정개솔표준차양화특정재문당류중적리산도,병작위특정적기출권중,동시이후험개솔적Beta분포함수위기출,운용개솔학정성밀도함수,평고특정재유별중적분포신식득도특정분포권치,장기조절기출권중득도특정권중,실현료선성문본분류기.재20Newsgroup、복단중문분류어료、Reuters-21578삼개어료집진행료비교실험,실험결과표명,신산법분류성능상대전통산법우세현저,차은정、고효、실용,괄우대규모문본분류임무.