计算机应用
計算機應用
계산궤응용
COMPUTER APPLICATION
2013年
12期
3559-3562,3595
,共5页
微博%事件检测%密度聚类算法%云计算%Hadoop平台%代表点
微博%事件檢測%密度聚類算法%雲計算%Hadoop平檯%代錶點
미박%사건검측%밀도취류산법%운계산%Hadoop평태%대표점
microblog%events detection%Density-Based Spatial Clustering of Applications with Noise (DBSCAN)%cloud computing%Hadoop platform%representative post
为从微博服务平台产生的大量实时信息中抽取新闻事件,提出了一套完整的云计算环境下的微博事件检测跟踪算法.首先采用新的基于微博转发数和评论数的权值计算方法,将微博文本表示成向量空间模型;再利用基于代表点的增量层次密度聚类(RIHDBSCAN)算法抽取关键词,最终实现新闻事件的检测和跟踪.针对单一节点无法快速高效地处理海量微博数据的问题,将算法部署在云计算平台Hadoop上.通过在新浪微博平台上荻取的真实数据进行实验,结果表明,所提出的权值计算方法比TF-IDF和UF-ITUF有更高的性能,并且云框架的使用较好地提高了处理速度,适合用于海量数据的分析和挖掘.
為從微博服務平檯產生的大量實時信息中抽取新聞事件,提齣瞭一套完整的雲計算環境下的微博事件檢測跟蹤算法.首先採用新的基于微博轉髮數和評論數的權值計算方法,將微博文本錶示成嚮量空間模型;再利用基于代錶點的增量層次密度聚類(RIHDBSCAN)算法抽取關鍵詞,最終實現新聞事件的檢測和跟蹤.針對單一節點無法快速高效地處理海量微博數據的問題,將算法部署在雲計算平檯Hadoop上.通過在新浪微博平檯上荻取的真實數據進行實驗,結果錶明,所提齣的權值計算方法比TF-IDF和UF-ITUF有更高的性能,併且雲框架的使用較好地提高瞭處理速度,適閤用于海量數據的分析和挖掘.
위종미박복무평태산생적대량실시신식중추취신문사건,제출료일투완정적운계산배경하적미박사건검측근종산법.수선채용신적기우미박전발수화평론수적권치계산방법,장미박문본표시성향량공간모형;재이용기우대표점적증량층차밀도취류(RIHDBSCAN)산법추취관건사,최종실현신문사건적검측화근종.침대단일절점무법쾌속고효지처리해량미박수거적문제,장산법부서재운계산평태Hadoop상.통과재신랑미박평태상적취적진실수거진행실험,결과표명,소제출적권치계산방법비TF-IDF화UF-ITUF유경고적성능,병차운광가적사용교호지제고료처리속도,괄합용우해량수거적분석화알굴.