铁路计算机应用
鐵路計算機應用
철로계산궤응용
RAILWAY COMPUTER APPLICATION
2015年
3期
19-21,32
,共4页
奚浩瀚%刘云%熊菲
奚浩瀚%劉雲%熊菲
해호한%류운%웅비
噪声过滤%C4.5决策树%特征值%相似度计算
譟聲過濾%C4.5決策樹%特徵值%相似度計算
조성과려%C4.5결책수%특정치%상사도계산
noise ifltering%C4.5 Decision Tree%characteristic value%similarity calculation
针对微博中充斥着的大量广告信息和其它的噪声微博,本文提出了基于C4.5决策树分类算法的用户分类过滤机制和基于特征值的计分过滤方法。利用微博文本的实时性和微博话题的时效性,还提出了一个基于时间参数的相似度计算方法。实验结果表明,该方法能提高对噪声过滤和话题检测的准确率和效率。
針對微博中充斥著的大量廣告信息和其它的譟聲微博,本文提齣瞭基于C4.5決策樹分類算法的用戶分類過濾機製和基于特徵值的計分過濾方法。利用微博文本的實時性和微博話題的時效性,還提齣瞭一箇基于時間參數的相似度計算方法。實驗結果錶明,該方法能提高對譟聲過濾和話題檢測的準確率和效率。
침대미박중충척착적대량엄고신식화기타적조성미박,본문제출료기우C4.5결책수분류산법적용호분류과려궤제화기우특정치적계분과려방법。이용미박문본적실시성화미박화제적시효성,환제출료일개기우시간삼수적상사도계산방법。실험결과표명,해방법능제고대조성과려화화제검측적준학솔화효솔。
Aiming at the big amount of advertising messages and other noise tweets, the paper proposed a user classiifcation ifltering mechanism based on C4.5 Decision Tree Classiifcation Algorithm and a scoring ifltering method based on characteristic value. Taking advantage of the instantaneity of micro-blog text and timeliness of micro-blog topic, the paper put forward a similarity calculation method based on time parameter. Experiments showed that this mechanism could detect topics and iflter noise with better accuracy and efifciency compared to the traditional approach.