中文信息学报
中文信息學報
중문신식학보
JOURNAL OF CHINESE INFORMAITON PROCESSING
2005年
2期
86-92
,共7页
陈文亮%朱慕华%朱靖波%姚天顺
陳文亮%硃慕華%硃靖波%姚天順
진문량%주모화%주정파%요천순
计算机应用%中文信息处理%文本分类%最大熵模型%权重因子
計算機應用%中文信息處理%文本分類%最大熵模型%權重因子
계산궤응용%중문신식처리%문본분류%최대적모형%권중인자
本文提出一种基于Bootstrapping的文本分类模型,该模型采用最大熵模型作为分类器,从少量的种子集出发,自动学习更多的文本作为新的种子样本,这样不断学习来提高最大熵分类器的文本分类性能.文中提出一个权重因子来调整新的种子样本在分类器训练过程中的权重.实验结果表明,在相同的手工训练语料的条件下,与传统的文本分类模型相比这种基于Bootstrapping的文本分类模型具有明显优势,仅使用每类100篇种子训练集,分类结果的F1值为70.56%,比传统模型高出4.70%.该模型通过使用适当的权重因子可以更好改善分类器的训练效果.
本文提齣一種基于Bootstrapping的文本分類模型,該模型採用最大熵模型作為分類器,從少量的種子集齣髮,自動學習更多的文本作為新的種子樣本,這樣不斷學習來提高最大熵分類器的文本分類性能.文中提齣一箇權重因子來調整新的種子樣本在分類器訓練過程中的權重.實驗結果錶明,在相同的手工訓練語料的條件下,與傳統的文本分類模型相比這種基于Bootstrapping的文本分類模型具有明顯優勢,僅使用每類100篇種子訓練集,分類結果的F1值為70.56%,比傳統模型高齣4.70%.該模型通過使用適噹的權重因子可以更好改善分類器的訓練效果.
본문제출일충기우Bootstrapping적문본분류모형,해모형채용최대적모형작위분류기,종소량적충자집출발,자동학습경다적문본작위신적충자양본,저양불단학습래제고최대적분류기적문본분류성능.문중제출일개권중인자래조정신적충자양본재분류기훈련과정중적권중.실험결과표명,재상동적수공훈련어료적조건하,여전통적문본분류모형상비저충기우Bootstrapping적문본분류모형구유명현우세,부사용매류100편충자훈련집,분류결과적F1치위70.56%,비전통모형고출4.70%.해모형통과사용괄당적권중인자가이경호개선분류기적훈련효과.