计算机应用研究
計算機應用研究
계산궤응용연구
APPLICATION RESEARCH OF COMPUTERS
2015年
6期
1625-1629
,共5页
新闻报道%子话题划分%多粒度%狄利克雷分配模型%语义相似度计算
新聞報道%子話題劃分%多粒度%狄利剋雷分配模型%語義相似度計算
신문보도%자화제화분%다립도%적리극뢰분배모형%어의상사도계산
news reports%subtopic division%multi-granularity%latent Dirichlet allocation(LDA) model%semantic similarity calculation
针对LDA建模结果较泛化、子话题间文本相似度较高等问题,提出一种基于狄利克雷分配模型(LDA)和知网(HowNet)语义词典相结合的多粒度子话题划分方法(MGH-LDA).首先采用LDA模型对不同新闻源的新闻集合进行初划分,并根据文档贡献度获得相同新闻话题的文档集合;其次在TF-IDF模型基础上获取多粒度粗细特征,作为核心词特征集合来表征新闻文档,采用知网语义词典来计算新闻文档之间的相似度;最后通过single-pass增量聚类算法进行新闻文档的聚类,实现子话题划分.通过在真实新闻数据集上的实验,验证了该方法能有效地提高热点新闻话题子话题划分的准确率.
針對LDA建模結果較汎化、子話題間文本相似度較高等問題,提齣一種基于狄利剋雷分配模型(LDA)和知網(HowNet)語義詞典相結閤的多粒度子話題劃分方法(MGH-LDA).首先採用LDA模型對不同新聞源的新聞集閤進行初劃分,併根據文檔貢獻度穫得相同新聞話題的文檔集閤;其次在TF-IDF模型基礎上穫取多粒度粗細特徵,作為覈心詞特徵集閤來錶徵新聞文檔,採用知網語義詞典來計算新聞文檔之間的相似度;最後通過single-pass增量聚類算法進行新聞文檔的聚類,實現子話題劃分.通過在真實新聞數據集上的實驗,驗證瞭該方法能有效地提高熱點新聞話題子話題劃分的準確率.
침대LDA건모결과교범화、자화제간문본상사도교고등문제,제출일충기우적리극뢰분배모형(LDA)화지망(HowNet)어의사전상결합적다립도자화제화분방법(MGH-LDA).수선채용LDA모형대불동신문원적신문집합진행초화분,병근거문당공헌도획득상동신문화제적문당집합;기차재TF-IDF모형기출상획취다립도조세특정,작위핵심사특정집합래표정신문문당,채용지망어의사전래계산신문문당지간적상사도;최후통과single-pass증량취류산법진행신문문당적취류,실현자화제화분.통과재진실신문수거집상적실험,험증료해방법능유효지제고열점신문화제자화제화분적준학솔.