软件
軟件
연건
SOFT WARE
2012年
12期
109-113
,共5页
文本检索%突发话题检测%话题聚类
文本檢索%突髮話題檢測%話題聚類
문본검색%돌발화제검측%화제취류
提出一种基于状态自动机的突发特征检测算法,针对微博数据长度小,语言不规范,噪声大,数据量大的特点,优化预处理过程和状态自动机模型参数;提出一种突发话题聚类算法,对特征词的词频向量表示进行改进,并引入基于词激活力(WAF)的词法特征,使得聚类效果更加准确,得到的突发话题可读性更强.最后通过实验方法验证了算法的可行性.
提齣一種基于狀態自動機的突髮特徵檢測算法,針對微博數據長度小,語言不規範,譟聲大,數據量大的特點,優化預處理過程和狀態自動機模型參數;提齣一種突髮話題聚類算法,對特徵詞的詞頻嚮量錶示進行改進,併引入基于詞激活力(WAF)的詞法特徵,使得聚類效果更加準確,得到的突髮話題可讀性更彊.最後通過實驗方法驗證瞭算法的可行性.
제출일충기우상태자동궤적돌발특정검측산법,침대미박수거장도소,어언불규범,조성대,수거량대적특점,우화예처리과정화상태자동궤모형삼수;제출일충돌발화제취류산법,대특정사적사빈향량표시진행개진,병인입기우사격활력(WAF)적사법특정,사득취류효과경가준학,득도적돌발화제가독성경강.최후통과실험방법험증료산법적가행성.