西南交通大学学报
西南交通大學學報
서남교통대학학보
Journal of Southwest Jiaotong University
2015年
4期
755-763
,共9页
主题模型%代表性语义词汇%文本挖掘%语义压缩%SCPTM
主題模型%代錶性語義詞彙%文本挖掘%語義壓縮%SCPTM
주제모형%대표성어의사회%문본알굴%어의압축%SCPTM
topic model%representative semantic terms%text mining%semantic compression%SCPTM
为了实现文本代表性语义词汇的抽取,提出一种基于词组主题建模的文本语义压缩算法SCPTM(semantic compression based on phrase topic modeling).该算法首先将代表性语义词汇抽取问题转化为最大化优化模型,并通过贪心搜索策略实现该模型的近似求解.然后,利用词组挖掘模型LDACOL实现词组主题建模,得到SCPTM算法的输入参数;同时,针对该模型中词组的主题分配不稳定的问题进行改进,使得取得的代表性语义词汇更加符合人们对语义的认知习惯.最后,将改进LDACOL模型与LDA模型、LDACOL模型以及TNG模型的主题挖掘性能进行实验比较,并利用SCPTM算法针对不同语料库进行语义压缩,根据聚类结果评价其有效性.实验结果表明,在多数情况下,改进LDACOL模型的主题抽取效果优于其他3种模型;通过SCPTM算法抽取代表性语义词汇能达到70% ~ 100%的精度,相比PCA、MDS、ISOMAP等传统降维算法能获得更高的聚类效果.
為瞭實現文本代錶性語義詞彙的抽取,提齣一種基于詞組主題建模的文本語義壓縮算法SCPTM(semantic compression based on phrase topic modeling).該算法首先將代錶性語義詞彙抽取問題轉化為最大化優化模型,併通過貪心搜索策略實現該模型的近似求解.然後,利用詞組挖掘模型LDACOL實現詞組主題建模,得到SCPTM算法的輸入參數;同時,針對該模型中詞組的主題分配不穩定的問題進行改進,使得取得的代錶性語義詞彙更加符閤人們對語義的認知習慣.最後,將改進LDACOL模型與LDA模型、LDACOL模型以及TNG模型的主題挖掘性能進行實驗比較,併利用SCPTM算法針對不同語料庫進行語義壓縮,根據聚類結果評價其有效性.實驗結果錶明,在多數情況下,改進LDACOL模型的主題抽取效果優于其他3種模型;通過SCPTM算法抽取代錶性語義詞彙能達到70% ~ 100%的精度,相比PCA、MDS、ISOMAP等傳統降維算法能穫得更高的聚類效果.
위료실현문본대표성어의사회적추취,제출일충기우사조주제건모적문본어의압축산법SCPTM(semantic compression based on phrase topic modeling).해산법수선장대표성어의사회추취문제전화위최대화우화모형,병통과탐심수색책략실현해모형적근사구해.연후,이용사조알굴모형LDACOL실현사조주제건모,득도SCPTM산법적수입삼수;동시,침대해모형중사조적주제분배불은정적문제진행개진,사득취득적대표성어의사회경가부합인문대어의적인지습관.최후,장개진LDACOL모형여LDA모형、LDACOL모형이급TNG모형적주제알굴성능진행실험비교,병이용SCPTM산법침대불동어료고진행어의압축,근거취류결과평개기유효성.실험결과표명,재다수정황하,개진LDACOL모형적주제추취효과우우기타3충모형;통과SCPTM산법추취대표성어의사회능체도70% ~ 100%적정도,상비PCA、MDS、ISOMAP등전통강유산법능획득경고적취류효과.