计算机研究与发展
計算機研究與髮展
계산궤연구여발전
JOURNAL OF COMPUTER RESEARCH AND DEVELOPMENT
2003年
6期
874-878
,共5页
马颖华%王永成%苏贵洋%张宇萌
馬穎華%王永成%囌貴洋%張宇萌
마영화%왕영성%소귀양%장우맹
自然语言处理%主题抽取%同现频率
自然語言處理%主題抽取%同現頻率
자연어언처리%주제추취%동현빈솔
主题抽取是文本自动处理的基础工作之一,而主题的抽取一直以分词或者抽词作为第1步.由于汉语词间缺少明显的间隔,因此分词和抽词的效果往往不够理想,从而在一定程度上影响了主题抽取的质量.提出以字为处理单位,基于字同现频率的汉语文本主题自动抽取的新方法.该方法速度快,适应多种文体类型,并完全避开了分词和抽词过程,可以广泛应用在主题句、主题段落等主题抽取的多个层面,而且同样适用于其他语言的文本主题抽取.主题句自动抽取实验表明,该方法抽取新闻文本主题句的正确率达到77.19%.汉语文本的主题抽取比较实验还表明,省略分词步骤并没有降低抽取算法的正确率.
主題抽取是文本自動處理的基礎工作之一,而主題的抽取一直以分詞或者抽詞作為第1步.由于漢語詞間缺少明顯的間隔,因此分詞和抽詞的效果往往不夠理想,從而在一定程度上影響瞭主題抽取的質量.提齣以字為處理單位,基于字同現頻率的漢語文本主題自動抽取的新方法.該方法速度快,適應多種文體類型,併完全避開瞭分詞和抽詞過程,可以廣汎應用在主題句、主題段落等主題抽取的多箇層麵,而且同樣適用于其他語言的文本主題抽取.主題句自動抽取實驗錶明,該方法抽取新聞文本主題句的正確率達到77.19%.漢語文本的主題抽取比較實驗還錶明,省略分詞步驟併沒有降低抽取算法的正確率.
주제추취시문본자동처리적기출공작지일,이주제적추취일직이분사혹자추사작위제1보.유우한어사간결소명현적간격,인차분사화추사적효과왕왕불구이상,종이재일정정도상영향료주제추취적질량.제출이자위처리단위,기우자동현빈솔적한어문본주제자동추취적신방법.해방법속도쾌,괄응다충문체류형,병완전피개료분사화추사과정,가이엄범응용재주제구、주제단락등주제추취적다개층면,이차동양괄용우기타어언적문본주제추취.주제구자동추취실험표명,해방법추취신문문본주제구적정학솔체도77.19%.한어문본적주제추취비교실험환표명,성략분사보취병몰유강저추취산법적정학솔.