中文信息学报
中文信息學報
중문신식학보
JOURNAL OF CHINESE INFORMAITON PROCESSING
2008年
1期
74-79
,共6页
王鹏鸣%吴水秀%王明文%黄国斌
王鵬鳴%吳水秀%王明文%黃國斌
왕붕명%오수수%왕명문%황국빈
计算机应用%中文信息处理%垃圾邮件过滤%偏最小二乘%特征抽取
計算機應用%中文信息處理%垃圾郵件過濾%偏最小二乘%特徵抽取
계산궤응용%중문신식처리%랄급유건과려%편최소이승%특정추취
随着垃圾邮件逐渐成为网络用户的一大困扰,垃圾邮件过滤技术的研究显得越来越重要.针对电子邮件存在数据极度稀疏性、高特征维数和多重相关性等特点,本文提出了一种基于偏最小二乘原理的特征抽取方法,可以通过对原始特征进行线性组合抽取出既可反映邮件内容又可反映邮件类型的潜在语义特征,并可解决多重相关性问题.在Enron-Spam邮件数据集上的实验结果表明,同χ2特征选择方法相比,该方法在较低维数上可以获取良好的邮件过滤性能.
隨著垃圾郵件逐漸成為網絡用戶的一大睏擾,垃圾郵件過濾技術的研究顯得越來越重要.針對電子郵件存在數據極度稀疏性、高特徵維數和多重相關性等特點,本文提齣瞭一種基于偏最小二乘原理的特徵抽取方法,可以通過對原始特徵進行線性組閤抽取齣既可反映郵件內容又可反映郵件類型的潛在語義特徵,併可解決多重相關性問題.在Enron-Spam郵件數據集上的實驗結果錶明,同χ2特徵選擇方法相比,該方法在較低維數上可以穫取良好的郵件過濾性能.
수착랄급유건축점성위망락용호적일대곤우,랄급유건과려기술적연구현득월래월중요.침대전자유건존재수거겁도희소성、고특정유수화다중상관성등특점,본문제출료일충기우편최소이승원리적특정추취방법,가이통과대원시특정진행선성조합추취출기가반영유건내용우가반영유건류형적잠재어의특정,병가해결다중상관성문제.재Enron-Spam유건수거집상적실험결과표명,동χ2특정선택방법상비,해방법재교저유수상가이획취량호적유건과려성능.