情报杂志
情報雜誌
정보잡지
JOURNAL OF INFORMATION
2010年
5期
141-143,147
,共4页
特征缺失%最大熵%文本分类%特征选择
特徵缺失%最大熵%文本分類%特徵選擇
특정결실%최대적%문본분류%특정선택
针对自然语言处理中普遍存在的特征缺失问题,提出了基于特征缺失补偿最大熵模型的文本分类方法.为避免数据稀疏时出现训练过适应,采用高斯先验平滑进行特征补偿,并提出基于条件最大熵计算增益和基于特征频数的混合特征选择方法.通过实验将本方法与中心法、最近邻、贝叶斯、SVM和平滑前的最大熵文本分类器进行了比较,实验结果表明基于特征缺失补偿最大熵模型分类器的综合性能超过以上算法.
針對自然語言處理中普遍存在的特徵缺失問題,提齣瞭基于特徵缺失補償最大熵模型的文本分類方法.為避免數據稀疏時齣現訓練過適應,採用高斯先驗平滑進行特徵補償,併提齣基于條件最大熵計算增益和基于特徵頻數的混閤特徵選擇方法.通過實驗將本方法與中心法、最近鄰、貝葉斯、SVM和平滑前的最大熵文本分類器進行瞭比較,實驗結果錶明基于特徵缺失補償最大熵模型分類器的綜閤性能超過以上算法.
침대자연어언처리중보편존재적특정결실문제,제출료기우특정결실보상최대적모형적문본분류방법.위피면수거희소시출현훈련과괄응,채용고사선험평활진행특정보상,병제출기우조건최대적계산증익화기우특정빈수적혼합특정선택방법.통과실험장본방법여중심법、최근린、패협사、SVM화평활전적최대적문본분류기진행료비교,실험결과표명기우특정결실보상최대적모형분류기적종합성능초과이상산법.