计算机应用
計算機應用
계산궤응용
Journal of Computer Applications
2015年
11期
3256-3260,3292
,共6页
堆叠去噪自编码器%垃圾邮件%分类%支持向量机%贝叶斯方法
堆疊去譟自編碼器%垃圾郵件%分類%支持嚮量機%貝葉斯方法
퇴첩거조자편마기%랄급유건%분류%지지향량궤%패협사방법
Stacked Denoising Autoencoder (SDA)%spam%classification%Support Vector Machine (SVM)%Bayesian approach
针对垃圾邮件数量日益攀升的问题,提出了将堆叠去噪自编码器应用到垃圾邮件分类中.首先,在无标签数据集上,使用无监督学习方法最小化重构误差,对堆叠去噪自编码器进行贪心逐层预训练,从而获得原始数据更加抽象和健壮的特征表示;然后,在堆叠去噪自编码器的最上层添加一个分类器后,在有标签数据集上,利用有监督学习方法最小化分类误差,对预训练获得的网络参数进行微调,获得最优化的模型;最后,利用训练完成的堆叠去噪编码器在6个不同的公开数据集上进行测试.将准确率、召回率、更具有平衡性的马修斯相关系数作为实验性能评价标准,实验结果表明,相比支持向量机算法、贝叶斯方法和深度置信网络的分类效果,基于堆叠去噪自编码器的垃圾邮件分类器的准确率都高于95%,马修斯相关系数都大于0.88,在应用中具有更高的准确率和更好的健壮性.
針對垃圾郵件數量日益攀升的問題,提齣瞭將堆疊去譟自編碼器應用到垃圾郵件分類中.首先,在無標籤數據集上,使用無鑑督學習方法最小化重構誤差,對堆疊去譟自編碼器進行貪心逐層預訓練,從而穫得原始數據更加抽象和健壯的特徵錶示;然後,在堆疊去譟自編碼器的最上層添加一箇分類器後,在有標籤數據集上,利用有鑑督學習方法最小化分類誤差,對預訓練穫得的網絡參數進行微調,穫得最優化的模型;最後,利用訓練完成的堆疊去譟編碼器在6箇不同的公開數據集上進行測試.將準確率、召迴率、更具有平衡性的馬脩斯相關繫數作為實驗性能評價標準,實驗結果錶明,相比支持嚮量機算法、貝葉斯方法和深度置信網絡的分類效果,基于堆疊去譟自編碼器的垃圾郵件分類器的準確率都高于95%,馬脩斯相關繫數都大于0.88,在應用中具有更高的準確率和更好的健壯性.
침대랄급유건수량일익반승적문제,제출료장퇴첩거조자편마기응용도랄급유건분류중.수선,재무표첨수거집상,사용무감독학습방법최소화중구오차,대퇴첩거조자편마기진행탐심축층예훈련,종이획득원시수거경가추상화건장적특정표시;연후,재퇴첩거조자편마기적최상층첨가일개분류기후,재유표첨수거집상,이용유감독학습방법최소화분류오차,대예훈련획득적망락삼수진행미조,획득최우화적모형;최후,이용훈련완성적퇴첩거조편마기재6개불동적공개수거집상진행측시.장준학솔、소회솔、경구유평형성적마수사상관계수작위실험성능평개표준,실험결과표명,상비지지향량궤산법、패협사방법화심도치신망락적분류효과,기우퇴첩거조자편마기적랄급유건분류기적준학솔도고우95%,마수사상관계수도대우0.88,재응용중구유경고적준학솔화경호적건장성.