计算机工程与应用
計算機工程與應用
계산궤공정여응용
COMPUTER ENGINEERING AND APPLICATIONS
2013年
16期
142-145,154
,共5页
Latent Dirichlet Allocation(LDA)%Gibbs抽样%谱聚类%多文档摘要
Latent Dirichlet Allocation(LDA)%Gibbs抽樣%譜聚類%多文檔摘要
Latent Dirichlet Allocation(LDA)%Gibbs추양%보취류%다문당적요
Latent Dirichlet Allocation(LDA)%Gibbs sampling%spectral clustering%multi-document summary
自动文摘技术的目标是致力于将冗长的文档内容压缩成较为简短的几段话,将信息全面、简洁地呈现给用户,提高用户获取信息的效率和准确率。所提出的方法在LDA(LatentDirichletAllocation)的基础上,使用Gibbs抽样估计主题在单词上的概率分布和句子在主题上的概率分布,结合LDA参数和谱聚类算法提取多文档。该方法使用线性公式来整合句子权重,提取出字数为400字的多文档。使用ROUGE自动评测工具包对DUC2002数据集评测质量,结果表明,该方法能有效地提高的质量。
自動文摘技術的目標是緻力于將冗長的文檔內容壓縮成較為簡短的幾段話,將信息全麵、簡潔地呈現給用戶,提高用戶穫取信息的效率和準確率。所提齣的方法在LDA(LatentDirichletAllocation)的基礎上,使用Gibbs抽樣估計主題在單詞上的概率分佈和句子在主題上的概率分佈,結閤LDA參數和譜聚類算法提取多文檔。該方法使用線性公式來整閤句子權重,提取齣字數為400字的多文檔。使用ROUGE自動評測工具包對DUC2002數據集評測質量,結果錶明,該方法能有效地提高的質量。
자동문적기술적목표시치력우장용장적문당내용압축성교위간단적궤단화,장신식전면、간길지정현급용호,제고용호획취신식적효솔화준학솔。소제출적방법재LDA(LatentDirichletAllocation)적기출상,사용Gibbs추양고계주제재단사상적개솔분포화구자재주제상적개솔분포,결합LDA삼수화보취류산법제취다문당。해방법사용선성공식래정합구자권중,제취출자수위400자적다문당。사용ROUGE자동평측공구포대DUC2002수거집평측질량,결과표명,해방법능유효지제고적질량。
Automatic summarization aims to compress lengthy document into a few short paragraphs, offers comprehensive and concise information to the users and improves the efficiency and accuracy of the information. A summarization method based on Latent Dirichlet Allocation(LDA)is proposed, using Gibbs sampling to estimate the word probability on topics and topic proba-bility on sentences, combing with the LDA parameters and spectral clustering algorithm to extract multi-document summariza-tion. The proposed approach uses a linear formula to integrate the sentence weights, extracting 400-words multi-document sum-marization. The experimental results show that the proposed method can improve the quality of summary effectively with the au-tomatic summarization evaluation toolkit ROUGE on DUC2002.