计算机系统应用
計算機繫統應用
계산궤계통응용
APPLICATIONS OF THE COMPUTER SYSTEMS
2014年
7期
7-11
,共5页
多文本自动摘要%Dominant sets cluster
多文本自動摘要%Dominant sets cluster
다문본자동적요%Dominant sets cluster
multi-document summarization%dominant sets cluster%query-focused summarization
多文本摘要的目标是对给定的查询和多篇文本(文本集),创建一个简洁明了的摘要,要求该摘要能够表达这些文本的关键内容,同时和给定的查询相关。一个给定的文本集通常包含一些主题,而且每个主题由一类句子来表示,一个优秀的摘要应该要包含那些最重要的主题。如今大部分的方法是建立一个模型来计算句子得分,然后选择得分最高的部分句子来生成摘要。不同于这些方法,我们更加关注文本的主题而不是句子,把如何生成摘要的问题看成一个主题的发现,排序和表示的问题。我们首次引入dominant sets cluster(DSC)来发现主题,然后建立一个模型来对主题的重要性进行评估,最后兼顾代表性和无重复性来从各个主题中选择句子组成摘要。我们在DUC2005、2006、2007三年的标准数据集上进行了实验,最后的实验结果证明了该方法的有效性。
多文本摘要的目標是對給定的查詢和多篇文本(文本集),創建一箇簡潔明瞭的摘要,要求該摘要能夠錶達這些文本的關鍵內容,同時和給定的查詢相關。一箇給定的文本集通常包含一些主題,而且每箇主題由一類句子來錶示,一箇優秀的摘要應該要包含那些最重要的主題。如今大部分的方法是建立一箇模型來計算句子得分,然後選擇得分最高的部分句子來生成摘要。不同于這些方法,我們更加關註文本的主題而不是句子,把如何生成摘要的問題看成一箇主題的髮現,排序和錶示的問題。我們首次引入dominant sets cluster(DSC)來髮現主題,然後建立一箇模型來對主題的重要性進行評估,最後兼顧代錶性和無重複性來從各箇主題中選擇句子組成摘要。我們在DUC2005、2006、2007三年的標準數據集上進行瞭實驗,最後的實驗結果證明瞭該方法的有效性。
다문본적요적목표시대급정적사순화다편문본(문본집),창건일개간길명료적적요,요구해적요능구표체저사문본적관건내용,동시화급정적사순상관。일개급정적문본집통상포함일사주제,이차매개주제유일류구자래표시,일개우수적적요응해요포함나사최중요적주제。여금대부분적방법시건립일개모형래계산구자득분,연후선택득분최고적부분구자래생성적요。불동우저사방법,아문경가관주문본적주제이불시구자,파여하생성적요적문제간성일개주제적발현,배서화표시적문제。아문수차인입dominant sets cluster(DSC)래발현주제,연후건립일개모형래대주제적중요성진행평고,최후겸고대표성화무중복성래종각개주제중선택구자조성적요。아문재DUC2005、2006、2007삼년적표준수거집상진행료실험,최후적실험결과증명료해방법적유효성。
Query-focused multi-document summarization aims at automatically creating a brief statement that presents the main points of a given document set and is relevant with the query. A given document set usually contains some themes. And each theme is represented by a cluster of sentences, and an excellent summary should cover the most important themes. Most of the existing multi-document summarization methods use a sentence-ranking model to select sentences to generate summary. These methods just consider cluster as a factor influences rank sentence or ignore it. Due to the influence of other factors, finally generated summary may not contain some important themes by these methods. Different from these methods, we focus on the themes level rather than sentence level and we treat the task as a themes detection, ranking and representation (TDRR) problem. We introduce dominant sets cluster (DSC) to produce theme clusters, construct a model to rank theme clusters, and select most representative and maximum information gain sentences to form summary. The experimental results on an open benchmark data sets from DUC05 to DUC07 show that our proposed approach is effectiveness.