计算机工程
計算機工程
계산궤공정
COMPUTER ENGINEERING
2015年
7期
31-35
,共5页
翟晓芳%刘全明%程耀东%胡庆宝%李海波
翟曉芳%劉全明%程耀東%鬍慶寶%李海波
적효방%류전명%정요동%호경보%리해파
微博%爬虫%静态特征%动态特征%热度指数%多分类问题
微博%爬蟲%靜態特徵%動態特徵%熱度指數%多分類問題
미박%파충%정태특정%동태특정%열도지수%다분류문제
microblog%crawler%static feature%dynamic feature%hotness index%multi-classification problem
微博作为新型的消息传播媒介,其影响力和传播速度都超越了传统主流媒体,预测微博热度对舆情监测、政府宣传、企业营销及热点推送等具有重要意义.通过分析微博转发的层次规律,结合转发量、转发深度及广度指标,定义新的热度指数计算方法.将微博热度划分为5个等级,对转发数大于100的微博预测其热度达到特定等级的概率.使用有监督的机器学习算法,先后提取训练样本的静态和动态特征训练热度预测模型.通过自主开发的BigData爬虫开放平台获取来源于新浪微博的训练样本,并应用十折交叉验证法进行实验,结果表明,相比只使用静态特征的热度预测模型,加入微博动态特征能有效提高预测性能,平均F1值达到76.9%.
微博作為新型的消息傳播媒介,其影響力和傳播速度都超越瞭傳統主流媒體,預測微博熱度對輿情鑑測、政府宣傳、企業營銷及熱點推送等具有重要意義.通過分析微博轉髮的層次規律,結閤轉髮量、轉髮深度及廣度指標,定義新的熱度指數計算方法.將微博熱度劃分為5箇等級,對轉髮數大于100的微博預測其熱度達到特定等級的概率.使用有鑑督的機器學習算法,先後提取訓練樣本的靜態和動態特徵訓練熱度預測模型.通過自主開髮的BigData爬蟲開放平檯穫取來源于新浪微博的訓練樣本,併應用十摺交扠驗證法進行實驗,結果錶明,相比隻使用靜態特徵的熱度預測模型,加入微博動態特徵能有效提高預測性能,平均F1值達到76.9%.
미박작위신형적소식전파매개,기영향력화전파속도도초월료전통주류매체,예측미박열도대여정감측、정부선전、기업영소급열점추송등구유중요의의.통과분석미박전발적층차규률,결합전발량、전발심도급엄도지표,정의신적열도지수계산방법.장미박열도화분위5개등급,대전발수대우100적미박예측기열도체도특정등급적개솔.사용유감독적궤기학습산법,선후제취훈련양본적정태화동태특정훈련열도예측모형.통과자주개발적BigData파충개방평태획취래원우신랑미박적훈련양본,병응용십절교차험증법진행실험,결과표명,상비지사용정태특정적열도예측모형,가입미박동태특정능유효제고예측성능,평균F1치체도76.9%.