计算机工程
計算機工程
계산궤공정
COMPUTER ENGINEERING
2014年
10期
37-42
,共6页
蔡偃武%高大启%阮彤%蒋锐权
蔡偃武%高大啟%阮彤%蔣銳權
채언무%고대계%원동%장예권
新事件检测%单路径聚类%大规模数据%并行计算%倒排索引%MapReduce架构
新事件檢測%單路徑聚類%大規模數據%併行計算%倒排索引%MapReduce架構
신사건검측%단로경취류%대규모수거%병행계산%도배색인%MapReduce가구
New Event Detection( NED)%single-pass clustering%large-scale data%parallel computing%inverted index%MapReduce architecture
通过分析基于新闻要素的在线新事件检测算法的时间消耗,提出一种面向大规模数据环境的在线新事件检测算法。该算法利用基于倒排索引的高效相似报道搜索机制,有效减少单路径聚类算法中的相似度比较次数。通过对报道预处理、报道与事件比较以及索引搜索这3个过程的并行化,提高算法在多机环境下的运行效率和可伸缩性。实验结果表明,该算法在不影响漏检率和误检率的基础上,提高了新事件检测的速度,并且在千万到亿级别的报道规模下,其吞吐量达到150条/s~200条/s。
通過分析基于新聞要素的在線新事件檢測算法的時間消耗,提齣一種麵嚮大規模數據環境的在線新事件檢測算法。該算法利用基于倒排索引的高效相似報道搜索機製,有效減少單路徑聚類算法中的相似度比較次數。通過對報道預處理、報道與事件比較以及索引搜索這3箇過程的併行化,提高算法在多機環境下的運行效率和可伸縮性。實驗結果錶明,該算法在不影響漏檢率和誤檢率的基礎上,提高瞭新事件檢測的速度,併且在韆萬到億級彆的報道規模下,其吞吐量達到150條/s~200條/s。
통과분석기우신문요소적재선신사건검측산법적시간소모,제출일충면향대규모수거배경적재선신사건검측산법。해산법이용기우도배색인적고효상사보도수색궤제,유효감소단로경취류산법중적상사도비교차수。통과대보도예처리、보도여사건비교이급색인수색저3개과정적병행화,제고산법재다궤배경하적운행효솔화가신축성。실험결과표명,해산법재불영향루검솔화오검솔적기출상,제고료신사건검측적속도,병차재천만도억급별적보도규모하,기탄토량체도150조/s~200조/s。
Through analyzing the time consumption of the existing online New Event Detection( NED) algorithm based on news elements, this paper improves an online NED algorithm for large-scale data environment. The algorithm uses efficient reported similar search mechanism based on inverted index to reduce the similarity comparison of single path clustering algorithms. Through parallelization of report pretreatment, report and event comparison, index search, it improves the efficiency and scalability of the algorithm in multimachine. Experimental result shows that the algorithm can greatly improve new event detection speed without affecting the miss probability and false-alarm probability, and its throughput reaches 150~200 reports/s at the scale of 10~100 million reports.