情报学报
情報學報
정보학보
2008年
5期
670-676
,共7页
噪声数据修正%模块度优化%文本分类%集团结构
譟聲數據脩正%模塊度優化%文本分類%集糰結構
조성수거수정%모괴도우화%문본분류%집단결구
在文本分类的实际应用中经常使用粗略分类的数据来训练分类器,但是这种数据中经常会包含类别标记有误的数据,这些数据对文本分类结果的精度会造成不良影响.本文针对这个问题提出了一种噪声修正算法,首先建立文档关联网络,把文档上标记的类别作为在网络上划分的集团结构,并用模块度衡量集团结构的质量,通过优化模块度指标把噪声数据调整到合适的类别中,从而提高数据质量.实验结果表明,本文所提算法能够有效修正粗分类数据中的噪声,且有较高的有效性和鲁棒性.该算法可以用于文本分类训练数据的预处理,或作为辅助技术用于文献库建设等工作.
在文本分類的實際應用中經常使用粗略分類的數據來訓練分類器,但是這種數據中經常會包含類彆標記有誤的數據,這些數據對文本分類結果的精度會造成不良影響.本文針對這箇問題提齣瞭一種譟聲脩正算法,首先建立文檔關聯網絡,把文檔上標記的類彆作為在網絡上劃分的集糰結構,併用模塊度衡量集糰結構的質量,通過優化模塊度指標把譟聲數據調整到閤適的類彆中,從而提高數據質量.實驗結果錶明,本文所提算法能夠有效脩正粗分類數據中的譟聲,且有較高的有效性和魯棒性.該算法可以用于文本分類訓練數據的預處理,或作為輔助技術用于文獻庫建設等工作.
재문본분류적실제응용중경상사용조략분류적수거래훈련분류기,단시저충수거중경상회포함유별표기유오적수거,저사수거대문본분류결과적정도회조성불량영향.본문침대저개문제제출료일충조성수정산법,수선건립문당관련망락,파문당상표기적유별작위재망락상화분적집단결구,병용모괴도형량집단결구적질량,통과우화모괴도지표파조성수거조정도합괄적유별중,종이제고수거질량.실험결과표명,본문소제산법능구유효수정조분류수거중적조성,차유교고적유효성화로봉성.해산법가이용우문본분류훈련수거적예처리,혹작위보조기술용우문헌고건설등공작.