计算机研究与发展
計算機研究與髮展
계산궤연구여발전
JOURNAL OF COMPUTER RESEARCH AND DEVELOPMENT
2012年
3期
628-635
,共8页
垃圾邮件过滤%结构化集成学习%多域结构%线性组合权%轻量基分类器%TREC垃圾邮件任务
垃圾郵件過濾%結構化集成學習%多域結構%線性組閤權%輕量基分類器%TREC垃圾郵件任務
랄급유건과려%결구화집성학습%다역결구%선성조합권%경량기분류기%TREC랄급유건임무
为了解决垃圾邮件过滤算法低计算复杂度与高分类准确率之间的矛盾,在多域学习框架下提出一种结构化集成学习思想,它根据文档结构组合多个基分类器的结果以追求更高分类性能.采用邮件文档的字符串特征生成多个轻量基分类器,并采用字符串-频率索引存储标注数据,使得每次更新和查询的时间开销是常数量级.根据邮件文档的多域结构特性,提出历史域分类器效力线性组合权和当前域文档分类能力线性组合权.综合考虑历史域分类器效力和当前域文档分类能力,还提出一种能够提高整体分类准确率的综合线性组合权.在TREC立即全反馈垃圾邮件过滤任务上的实验结果表明:基于综合线性组合权的结构化集成学习方法能够在较短的时间(47.24 min)内完成过滤任务,整体性能1-ROCA达到参加TREC2007评测的最优过滤器性能(0.0055).
為瞭解決垃圾郵件過濾算法低計算複雜度與高分類準確率之間的矛盾,在多域學習框架下提齣一種結構化集成學習思想,它根據文檔結構組閤多箇基分類器的結果以追求更高分類性能.採用郵件文檔的字符串特徵生成多箇輕量基分類器,併採用字符串-頻率索引存儲標註數據,使得每次更新和查詢的時間開銷是常數量級.根據郵件文檔的多域結構特性,提齣歷史域分類器效力線性組閤權和噹前域文檔分類能力線性組閤權.綜閤攷慮歷史域分類器效力和噹前域文檔分類能力,還提齣一種能夠提高整體分類準確率的綜閤線性組閤權.在TREC立即全反饋垃圾郵件過濾任務上的實驗結果錶明:基于綜閤線性組閤權的結構化集成學習方法能夠在較短的時間(47.24 min)內完成過濾任務,整體性能1-ROCA達到參加TREC2007評測的最優過濾器性能(0.0055).
위료해결랄급유건과려산법저계산복잡도여고분류준학솔지간적모순,재다역학습광가하제출일충결구화집성학습사상,타근거문당결구조합다개기분류기적결과이추구경고분류성능.채용유건문당적자부천특정생성다개경량기분류기,병채용자부천-빈솔색인존저표주수거,사득매차경신화사순적시간개소시상수량급.근거유건문당적다역결구특성,제출역사역분류기효력선성조합권화당전역문당분류능력선성조합권.종합고필역사역분류기효력화당전역문당분류능력,환제출일충능구제고정체분류준학솔적종합선성조합권.재TREC립즉전반궤랄급유건과려임무상적실험결과표명:기우종합선성조합권적결구화집성학습방법능구재교단적시간(47.24 min)내완성과려임무,정체성능1-ROCA체도삼가TREC2007평측적최우과려기성능(0.0055).