中文信息学报
中文信息學報
중문신식학보
JOURNAL OF CHINESE INFORMAITON PROCESSING
2003年
2期
14-20
,共7页
季姮%罗振声%万敏%高小云
季姮%囉振聲%萬敏%高小雲
계항%라진성%만민%고소운
计算机应用%中文信息处理%概念统计%主题概念%向量空间模型%句子重要度%意义块划分
計算機應用%中文信息處理%概唸統計%主題概唸%嚮量空間模型%句子重要度%意義塊劃分
계산궤응용%중문신식처리%개념통계%주제개념%향량공간모형%구자중요도%의의괴화분
传统的自动文摘方法基于词语统计抽取文摘句,未进行文本的语义分析,导致文摘精度不高.为了克服传统方法的缺点,本文提出了一种基于主题概念的自动文摘方法,以概念统计和层次分析为基础设计并实现了一个英文自动文摘系统.系统利用WordNet以概念统计代替传统的词频统计,基于主题概念构建向量空间模型,计算句子重要度.并且根据主题概念在概念层次树上的分布进行文本结构分析划分意义块,以意义块为单元抽取文摘,初步解决了多主题文章的文摘结构不平衡问题.本文主要介绍了概念层次树的构造,主题概念的抽取步骤,基于主题概念的句子重要度的计算和意义块的划分算法.测试表明,通过概念统计和语义层次分析的方法,我们设计了更理想的向量空间模型,系统生成的文摘精度较高,并更全面地反映了原文的主要内容.
傳統的自動文摘方法基于詞語統計抽取文摘句,未進行文本的語義分析,導緻文摘精度不高.為瞭剋服傳統方法的缺點,本文提齣瞭一種基于主題概唸的自動文摘方法,以概唸統計和層次分析為基礎設計併實現瞭一箇英文自動文摘繫統.繫統利用WordNet以概唸統計代替傳統的詞頻統計,基于主題概唸構建嚮量空間模型,計算句子重要度.併且根據主題概唸在概唸層次樹上的分佈進行文本結構分析劃分意義塊,以意義塊為單元抽取文摘,初步解決瞭多主題文章的文摘結構不平衡問題.本文主要介紹瞭概唸層次樹的構造,主題概唸的抽取步驟,基于主題概唸的句子重要度的計算和意義塊的劃分算法.測試錶明,通過概唸統計和語義層次分析的方法,我們設計瞭更理想的嚮量空間模型,繫統生成的文摘精度較高,併更全麵地反映瞭原文的主要內容.
전통적자동문적방법기우사어통계추취문적구,미진행문본적어의분석,도치문적정도불고.위료극복전통방법적결점,본문제출료일충기우주제개념적자동문적방법,이개념통계화층차분석위기출설계병실현료일개영문자동문적계통.계통이용WordNet이개념통계대체전통적사빈통계,기우주제개념구건향량공간모형,계산구자중요도.병차근거주제개념재개념층차수상적분포진행문본결구분석화분의의괴,이의의괴위단원추취문적,초보해결료다주제문장적문적결구불평형문제.본문주요개소료개념층차수적구조,주제개념적추취보취,기우주제개념적구자중요도적계산화의의괴적화분산법.측시표명,통과개념통계화어의층차분석적방법,아문설계료경이상적향량공간모형,계통생성적문적정도교고,병경전면지반영료원문적주요내용.