计算机工程
計算機工程
계산궤공정
COMPUTER ENGINEERING
2014年
5期
17-20
,共4页
微博%文本处理%向量空间模型%支持向量机%文本分类%广告过滤
微博%文本處理%嚮量空間模型%支持嚮量機%文本分類%廣告過濾
미박%문본처리%향량공간모형%지지향량궤%문본분류%엄고과려
microblog%text processing%vector space model%Support Vector Machine(SVM)%text classification%advertisement filtering
针对新浪、腾讯等微博平台出现大量广告的问题,提出一个微博广告过滤模型。通过对数据的预处理,将采集到的微博原始数据转换成干净且计算机易处理的数据。在预处理阶段,根据微博文本的特点,对停用词表进行改进,以提高查准率,然后基于支持向量机构建一个训练分类器对数据进行训练,经过不断的学习和反馈,取得较好的分类效果。实验结果表明,该模型进行广告过滤时准确率超过90%,效果优于基于关键字的方法。
針對新浪、騰訊等微博平檯齣現大量廣告的問題,提齣一箇微博廣告過濾模型。通過對數據的預處理,將採集到的微博原始數據轉換成榦淨且計算機易處理的數據。在預處理階段,根據微博文本的特點,對停用詞錶進行改進,以提高查準率,然後基于支持嚮量機構建一箇訓練分類器對數據進行訓練,經過不斷的學習和反饋,取得較好的分類效果。實驗結果錶明,該模型進行廣告過濾時準確率超過90%,效果優于基于關鍵字的方法。
침대신랑、등신등미박평태출현대량엄고적문제,제출일개미박엄고과려모형。통과대수거적예처리,장채집도적미박원시수거전환성간정차계산궤역처리적수거。재예처리계단,근거미박문본적특점,대정용사표진행개진,이제고사준솔,연후기우지지향량궤구건일개훈련분류기대수거진행훈련,경과불단적학습화반궤,취득교호적분류효과。실험결과표명,해모형진행엄고과려시준학솔초과90%,효과우우기우관건자적방법。
In order to solve the problem of a large number of advertisements on Sina, Tencent microblog platform, this paper proposes a microblog advertisement filtering model. Through the data pretreatment, the raw data are converted into clean data and easy to be handled by the computer. In the pretreatment stage, according to the characteristics of the microblog, this paper emphatically improves the stop word list, and it plays a key role in improving precision. Then it builds a classifier based on support vector machine for training data, and through continuous learning and feedback, better classification results are achieved. Experimental results show that the model of advertisement filter achieves better effect, when filtering accuracy is more than 90%, which is better than the method based on keywords.