计算机工程与设计
計算機工程與設計
계산궤공정여설계
COMPUTER ENGINEERING AND DESIGN
2010年
22期
4932-4935
,共4页
中文信息处理%垃圾博客%多结构特征%朴素贝叶斯%支持向量机
中文信息處理%垃圾博客%多結構特徵%樸素貝葉斯%支持嚮量機
중문신식처리%랄급박객%다결구특정%박소패협사%지지향량궤
为解决日益严重的垃圾博客问题,对产生垃圾博客的作弊技术和相应的识别技术进行了研究.通过对大量中文垃圾博客的分析,结合对作弊者目的的研究,提出了从用户名、发帖时间间隔、博文内容、锚文本和链接地址、分类标签等博客的结构特征出发的特征提取方法.在特征提取的基础上,提出了基于多结构特征的识别方法,并建立了相应的系统模型.使用支持向量机和朴素贝叶斯模型作为分类器进行了实验,并与经典的基于内容的方法进行了对比.实验结果表明,在小的训练集上,基于多结构特征的方法正确率达到90%以上,比基于内容的方法提高了6个百分点,该方法可有效区分垃圾博客和正常博客.
為解決日益嚴重的垃圾博客問題,對產生垃圾博客的作弊技術和相應的識彆技術進行瞭研究.通過對大量中文垃圾博客的分析,結閤對作弊者目的的研究,提齣瞭從用戶名、髮帖時間間隔、博文內容、錨文本和鏈接地阯、分類標籤等博客的結構特徵齣髮的特徵提取方法.在特徵提取的基礎上,提齣瞭基于多結構特徵的識彆方法,併建立瞭相應的繫統模型.使用支持嚮量機和樸素貝葉斯模型作為分類器進行瞭實驗,併與經典的基于內容的方法進行瞭對比.實驗結果錶明,在小的訓練集上,基于多結構特徵的方法正確率達到90%以上,比基于內容的方法提高瞭6箇百分點,該方法可有效區分垃圾博客和正常博客.
위해결일익엄중적랄급박객문제,대산생랄급박객적작폐기술화상응적식별기술진행료연구.통과대대량중문랄급박객적분석,결합대작폐자목적적연구,제출료종용호명、발첩시간간격、박문내용、묘문본화련접지지、분류표첨등박객적결구특정출발적특정제취방법.재특정제취적기출상,제출료기우다결구특정적식별방법,병건립료상응적계통모형.사용지지향량궤화박소패협사모형작위분류기진행료실험,병여경전적기우내용적방법진행료대비.실험결과표명,재소적훈련집상,기우다결구특정적방법정학솔체도90%이상,비기우내용적방법제고료6개백분점,해방법가유효구분랄급박객화정상박객.