智能系统学报
智能繫統學報
지능계통학보
CAAI TRANSACTIONS ON INTELLIGENT SYSTEMS
2010年
2期
169-176
,共8页
杨潇%马军%杨同峰%杜言琦%邵海敏
楊瀟%馬軍%楊同峰%杜言琦%邵海敏
양소%마군%양동봉%두언기%소해민
多文档自动%句子分值计算%主题模型%LDA%主题数目
多文檔自動%句子分值計算%主題模型%LDA%主題數目
다문당자동%구자분치계산%주제모형%LDA%주제수목
近年来使用概率主题模型表示多文档文摘问题受到研究者的关注.LDA (latent dirichlet allocation)是主题模型中具有代表性的概率生成性模型之一.提出了一种基于LDA的文摘方法,该方法以混乱度确定LDA模型的主题数目,以Gibbs抽样获得模型中句子的主题概率分布和主题的词汇概率分布,以句子中主题权重的加和确定各个主题的重要程度,并根据LDA模型中主题的概率分布和句子的概率分布提出了2种不同的句子权重计算模型.实验中使用ROUGE评测标准,与代表最新水平的SumBasic方法和其他2种基于LDA的多文档自动文摘方法在通用型多文档摘要测试集DUC2002上的评测数据进行比较,结果表明提出的基于LDA的多文档自动文摘方法在ROUGE的各个评测标准上均优于SumBasic方法,与其他基于LDA模型的文摘相比也具有优势.
近年來使用概率主題模型錶示多文檔文摘問題受到研究者的關註.LDA (latent dirichlet allocation)是主題模型中具有代錶性的概率生成性模型之一.提齣瞭一種基于LDA的文摘方法,該方法以混亂度確定LDA模型的主題數目,以Gibbs抽樣穫得模型中句子的主題概率分佈和主題的詞彙概率分佈,以句子中主題權重的加和確定各箇主題的重要程度,併根據LDA模型中主題的概率分佈和句子的概率分佈提齣瞭2種不同的句子權重計算模型.實驗中使用ROUGE評測標準,與代錶最新水平的SumBasic方法和其他2種基于LDA的多文檔自動文摘方法在通用型多文檔摘要測試集DUC2002上的評測數據進行比較,結果錶明提齣的基于LDA的多文檔自動文摘方法在ROUGE的各箇評測標準上均優于SumBasic方法,與其他基于LDA模型的文摘相比也具有優勢.
근년래사용개솔주제모형표시다문당문적문제수도연구자적관주.LDA (latent dirichlet allocation)시주제모형중구유대표성적개솔생성성모형지일.제출료일충기우LDA적문적방법,해방법이혼란도학정LDA모형적주제수목,이Gibbs추양획득모형중구자적주제개솔분포화주제적사회개솔분포,이구자중주제권중적가화학정각개주제적중요정도,병근거LDA모형중주제적개솔분포화구자적개솔분포제출료2충불동적구자권중계산모형.실험중사용ROUGE평측표준,여대표최신수평적SumBasic방법화기타2충기우LDA적다문당자동문적방법재통용형다문당적요측시집DUC2002상적평측수거진행비교,결과표명제출적기우LDA적다문당자동문적방법재ROUGE적각개평측표준상균우우SumBasic방법,여기타기우LDA모형적문적상비야구유우세.