计算机工程与科学
計算機工程與科學
계산궤공정여과학
COMPUTER ENGINEERING & SCIENCE
2010年
7期
89-92,119
,共5页
噪声数据%文本分类%概率主题模型%类别熵
譟聲數據%文本分類%概率主題模型%類彆熵
조성수거%문본분류%개솔주제모형%유별적
训练集中文本质量的好坏直接决定着文本分类的结果.实际应用中训练集的构建不可避免地会产生噪声样本,从而影响文本分类方法的实际应用效果.为此,针对文本分类中的噪声问题,本文提出一种基于概率主题模型的噪声处理方法,首先对训练集中的每个样本计算其类别熵,根据类别熵对噪声样本进行过滤;然后利用主题模型进行数据平滑,进一步减弱噪声样本的影响.这种方法不但能够减弱噪声样本对分类结果的影响,同时还保持了训练集的原有规模.在真实数据上的实验表明,该方法对噪声样本的分布具有较好的鲁棒性,在噪声比例较大的情况下仍能保持较好的分类结果.
訓練集中文本質量的好壞直接決定著文本分類的結果.實際應用中訓練集的構建不可避免地會產生譟聲樣本,從而影響文本分類方法的實際應用效果.為此,針對文本分類中的譟聲問題,本文提齣一種基于概率主題模型的譟聲處理方法,首先對訓練集中的每箇樣本計算其類彆熵,根據類彆熵對譟聲樣本進行過濾;然後利用主題模型進行數據平滑,進一步減弱譟聲樣本的影響.這種方法不但能夠減弱譟聲樣本對分類結果的影響,同時還保持瞭訓練集的原有規模.在真實數據上的實驗錶明,該方法對譟聲樣本的分佈具有較好的魯棒性,在譟聲比例較大的情況下仍能保持較好的分類結果.
훈련집중문본질량적호배직접결정착문본분류적결과.실제응용중훈련집적구건불가피면지회산생조성양본,종이영향문본분류방법적실제응용효과.위차,침대문본분류중적조성문제,본문제출일충기우개솔주제모형적조성처리방법,수선대훈련집중적매개양본계산기유별적,근거유별적대조성양본진행과려;연후이용주제모형진행수거평활,진일보감약조성양본적영향.저충방법불단능구감약조성양본대분류결과적영향,동시환보지료훈련집적원유규모.재진실수거상적실험표명,해방법대조성양본적분포구유교호적로봉성,재조성비례교대적정황하잉능보지교호적분류결과.