黑龙江工程学院学报(自然科学版)
黑龍江工程學院學報(自然科學版)
흑룡강공정학원학보(자연과학판)
JOURNAL OF HEILONGJIANG INSTITUTE OF TECHNOLOGY
2012年
2期
65-69
,共5页
丁华福%王莹莹%韩咏%闵莉%邹钰
丁華福%王瑩瑩%韓詠%閔莉%鄒鈺
정화복%왕형형%한영%민리%추옥
生成模型%判别模型%中文垃圾邮件过滤
生成模型%判彆模型%中文垃圾郵件過濾
생성모형%판별모형%중문랄급유건과려
基于机器学习的垃圾邮件过滤技术是当前垃圾邮件过滤的主流方法.机器学习模型主要分为两类:以朴素贝叶斯(NB)为代表的生成模型和以逻辑回归模型(LR)、支持向量机模型(SVM)为代表的判别学习模型.以往对两种模型的研究都是针对某一种语言进行,对于模型的语言独立性与相关性研究较少.因此,在中文数据集和英文数据集上比较典型的生产模型和判别学习模型的过滤性能.比较Bogo(Bogo系统是基于贝叶斯算法的,它是典型的生成模型)、逻辑回归模型和松弛在线支持向量机(两种典型的判别学习模型)在中英文数据集上的过滤性能.其中:实验是在公开英文数据集TREC05p-1、TREC06p和公开中文数据集TREC06c、SEWM2011上进行.实验结果显示基于判别模型垃圾邮件过滤器性能明显优于基于生成模型,并且相同的模型在中文数据集上显示了较好的效果.
基于機器學習的垃圾郵件過濾技術是噹前垃圾郵件過濾的主流方法.機器學習模型主要分為兩類:以樸素貝葉斯(NB)為代錶的生成模型和以邏輯迴歸模型(LR)、支持嚮量機模型(SVM)為代錶的判彆學習模型.以往對兩種模型的研究都是針對某一種語言進行,對于模型的語言獨立性與相關性研究較少.因此,在中文數據集和英文數據集上比較典型的生產模型和判彆學習模型的過濾性能.比較Bogo(Bogo繫統是基于貝葉斯算法的,它是典型的生成模型)、邏輯迴歸模型和鬆弛在線支持嚮量機(兩種典型的判彆學習模型)在中英文數據集上的過濾性能.其中:實驗是在公開英文數據集TREC05p-1、TREC06p和公開中文數據集TREC06c、SEWM2011上進行.實驗結果顯示基于判彆模型垃圾郵件過濾器性能明顯優于基于生成模型,併且相同的模型在中文數據集上顯示瞭較好的效果.
기우궤기학습적랄급유건과려기술시당전랄급유건과려적주류방법.궤기학습모형주요분위량류:이박소패협사(NB)위대표적생성모형화이라집회귀모형(LR)、지지향량궤모형(SVM)위대표적판별학습모형.이왕대량충모형적연구도시침대모일충어언진행,대우모형적어언독립성여상관성연구교소.인차,재중문수거집화영문수거집상비교전형적생산모형화판별학습모형적과려성능.비교Bogo(Bogo계통시기우패협사산법적,타시전형적생성모형)、라집회귀모형화송이재선지지향량궤(량충전형적판별학습모형)재중영문수거집상적과려성능.기중:실험시재공개영문수거집TREC05p-1、TREC06p화공개중문수거집TREC06c、SEWM2011상진행.실험결과현시기우판별모형랄급유건과려기성능명현우우기우생성모형,병차상동적모형재중문수거집상현시료교호적효과.