电脑编程技巧与维护
電腦編程技巧與維護
전뇌편정기교여유호
COMPUTER PROGRAMMING SKILLS & MAINTENANCE
2010年
6期
21-22,29
,共3页
文本自动分类%不平衡数据集%少数类
文本自動分類%不平衡數據集%少數類
문본자동분류%불평형수거집%소수류
文本自动分类是数据挖掘和信息检索的核心技术,也是研究热点.在实际的应用中,时常会出现文本数据量很大,但是对人们有用的信息仅占一小部分,这种某类样本数量明显少于其他类样本数量的数据就是不平衡数据集.不平衡数据集可以分类为少数类和多数类.传统方法对少数类的识别率比较低,如何有效地提高少数类的分类性能成为了模式识别和机器学习必须解决的问题.就提高不平衡数据集的少数类文本的分类性能问题,从数据层面处理角度对数据进行了重抽样,采用随机抽样的办法来提高分类器在不平衡数据集的泛化性能.
文本自動分類是數據挖掘和信息檢索的覈心技術,也是研究熱點.在實際的應用中,時常會齣現文本數據量很大,但是對人們有用的信息僅佔一小部分,這種某類樣本數量明顯少于其他類樣本數量的數據就是不平衡數據集.不平衡數據集可以分類為少數類和多數類.傳統方法對少數類的識彆率比較低,如何有效地提高少數類的分類性能成為瞭模式識彆和機器學習必鬚解決的問題.就提高不平衡數據集的少數類文本的分類性能問題,從數據層麵處理角度對數據進行瞭重抽樣,採用隨機抽樣的辦法來提高分類器在不平衡數據集的汎化性能.
문본자동분류시수거알굴화신식검색적핵심기술,야시연구열점.재실제적응용중,시상회출현문본수거량흔대,단시대인문유용적신식부점일소부분,저충모류양본수량명현소우기타류양본수량적수거취시불평형수거집.불평형수거집가이분류위소수류화다수류.전통방법대소수류적식별솔비교저,여하유효지제고소수류적분류성능성위료모식식별화궤기학습필수해결적문제.취제고불평형수거집적소수류문본적분류성능문제,종수거층면처리각도대수거진행료중추양,채용수궤추양적판법래제고분류기재불평형수거집적범화성능.