计算机系统应用
計算機繫統應用
계산궤계통응용
APPLICATIONS OF THE COMPUTER SYSTEMS
2012年
11期
131-136
,共6页
中文微博%用户行为模型%海量信息过滤%热词抽取%幂律分布
中文微博%用戶行為模型%海量信息過濾%熱詞抽取%冪律分佈
중문미박%용호행위모형%해량신식과려%열사추취%멱률분포
针对海量微博信息,提出一种多步骤的热词抽取方法.首先,选择用户行为特性、微博信息的文本特征构建用户行为模型,并在此基础上提出一种基于规则的话题树生成过滤算法,筛除了微博中大量无关信息,进而对生成的话题树修剪优化;然后,根据话题树的节点内容,使用词频及其波动特性设计热词抽取算法,获取微博的热词信息.实验数据表明,该方法能大大减小输入的数据规模,同时较好的保留重要信息,有效实现热词抽取.
針對海量微博信息,提齣一種多步驟的熱詞抽取方法.首先,選擇用戶行為特性、微博信息的文本特徵構建用戶行為模型,併在此基礎上提齣一種基于規則的話題樹生成過濾算法,篩除瞭微博中大量無關信息,進而對生成的話題樹脩剪優化;然後,根據話題樹的節點內容,使用詞頻及其波動特性設計熱詞抽取算法,穫取微博的熱詞信息.實驗數據錶明,該方法能大大減小輸入的數據規模,同時較好的保留重要信息,有效實現熱詞抽取.
침대해량미박신식,제출일충다보취적열사추취방법.수선,선택용호행위특성、미박신식적문본특정구건용호행위모형,병재차기출상제출일충기우규칙적화제수생성과려산법,사제료미박중대량무관신식,진이대생성적화제수수전우화;연후,근거화제수적절점내용,사용사빈급기파동특성설계열사추취산법,획취미박적열사신식.실험수거표명,해방법능대대감소수입적수거규모,동시교호적보류중요신식,유효실현열사추취.