计算机应用
計算機應用
계산궤응용
COMPUTER APPLICATION
2015年
2期
456-460,465
,共6页
陈千%桂志国%郭鑫%向阳
陳韆%桂誌國%郭鑫%嚮暘
진천%계지국%곽흠%향양
文本流%主题建模%特征本体%主题演化%词共现
文本流%主題建模%特徵本體%主題縯化%詞共現
문본류%주제건모%특정본체%주제연화%사공현
text stream%topic modeling%feature ontology%topic evolution%word co-occurrence
针对网络大数据时代文本流的主题演化研究大多基于经典概率主题模型,以词袋假设为前提导致主题的语义缺失问题和批处理问题,提出一种在线增量的基于特征本体的主题演化算法.首先,基于词共现和通用本体库WordNet构建特征本体,用特征本体对文本流主题进行建模;其次,提出一种文本流主题矩阵构建算法,实现在线增量主题演化分析;最后,依据该矩阵提出文本流主题本体演化图构建算法,利用特征本体的子图相似度计算主题相似度,从而获得文本流中主题随时间的演化模式.在科技文献上的实验上,满意度同传统在线潜在狄利克雷分配模型(LDA)不相上下,但时间复杂度降低到O(nK+ N).所提出的方法引入了本体,加入了语义关系标注,可图形化展现主题的语义特征,并在此基础上在线增量地实现了主题演化图的构建,在语义解释性和主题可视化方面更具有优势.
針對網絡大數據時代文本流的主題縯化研究大多基于經典概率主題模型,以詞袋假設為前提導緻主題的語義缺失問題和批處理問題,提齣一種在線增量的基于特徵本體的主題縯化算法.首先,基于詞共現和通用本體庫WordNet構建特徵本體,用特徵本體對文本流主題進行建模;其次,提齣一種文本流主題矩陣構建算法,實現在線增量主題縯化分析;最後,依據該矩陣提齣文本流主題本體縯化圖構建算法,利用特徵本體的子圖相似度計算主題相似度,從而穫得文本流中主題隨時間的縯化模式.在科技文獻上的實驗上,滿意度同傳統在線潛在狄利剋雷分配模型(LDA)不相上下,但時間複雜度降低到O(nK+ N).所提齣的方法引入瞭本體,加入瞭語義關繫標註,可圖形化展現主題的語義特徵,併在此基礎上在線增量地實現瞭主題縯化圖的構建,在語義解釋性和主題可視化方麵更具有優勢.
침대망락대수거시대문본류적주제연화연구대다기우경전개솔주제모형,이사대가설위전제도치주제적어의결실문제화비처리문제,제출일충재선증량적기우특정본체적주제연화산법.수선,기우사공현화통용본체고WordNet구건특정본체,용특정본체대문본류주제진행건모;기차,제출일충문본류주제구진구건산법,실현재선증량주제연화분석;최후,의거해구진제출문본류주제본체연화도구건산법,이용특정본체적자도상사도계산주제상사도,종이획득문본류중주제수시간적연화모식.재과기문헌상적실험상,만의도동전통재선잠재적리극뢰분배모형(LDA)불상상하,단시간복잡도강저도O(nK+ N).소제출적방법인입료본체,가입료어의관계표주,가도형화전현주제적어의특정,병재차기출상재선증량지실현료주제연화도적구건,재어의해석성화주제가시화방면경구유우세.