计算机科学与探索
計算機科學與探索
계산궤과학여탐색
JOURNAL OF FRONTIERS OF COMPUTER SCIENCE & TECHNOLOGY
2011年
11期
1048-1056
,共9页
boosting%半监督分类%朴素贝叶斯%置信度%重取样
boosting%半鑑督分類%樸素貝葉斯%置信度%重取樣
boosting%반감독분류%박소패협사%치신도%중취양
结合半监督学习和集成学习方法,提出了一种基于置信度重取样的SemiBoost-CR分类模型.给出了基于标注近邻与未标注近邻的置信度计算公式,按照置信度重采样,不仅选取一定比例置信度较高的未标注样本,而且选取一定比例置信度较低的未标注样本,分别以不同的策略加入到已标注的训练样本集,引入置信度高的未标注样本,用以提高基分类器的正确性(accuracy);而引入置信度低的未标注样本,目的则是进一步增加基分类器间的差异性(diversity).对比实验表明,SemiBoost-CR分类模型能够有效提升Naive Bayesian文本分类器的性能.
結閤半鑑督學習和集成學習方法,提齣瞭一種基于置信度重取樣的SemiBoost-CR分類模型.給齣瞭基于標註近鄰與未標註近鄰的置信度計算公式,按照置信度重採樣,不僅選取一定比例置信度較高的未標註樣本,而且選取一定比例置信度較低的未標註樣本,分彆以不同的策略加入到已標註的訓練樣本集,引入置信度高的未標註樣本,用以提高基分類器的正確性(accuracy);而引入置信度低的未標註樣本,目的則是進一步增加基分類器間的差異性(diversity).對比實驗錶明,SemiBoost-CR分類模型能夠有效提升Naive Bayesian文本分類器的性能.
결합반감독학습화집성학습방법,제출료일충기우치신도중취양적SemiBoost-CR분류모형.급출료기우표주근린여미표주근린적치신도계산공식,안조치신도중채양,불부선취일정비례치신도교고적미표주양본,이차선취일정비례치신도교저적미표주양본,분별이불동적책략가입도이표주적훈련양본집,인입치신도고적미표주양본,용이제고기분류기적정학성(accuracy);이인입치신도저적미표주양본,목적칙시진일보증가기분류기간적차이성(diversity).대비실험표명,SemiBoost-CR분류모형능구유효제승Naive Bayesian문본분류기적성능.