情报学报
情報學報
정보학보
2009年
2期
163-168
,共6页
张庆国%章成志%薛德军%张君玉
張慶國%章成誌%薛德軍%張君玉
장경국%장성지%설덕군%장군옥
自动抽取%K最近邻%隐含主题%向量空间模型
自動抽取%K最近鄰%隱含主題%嚮量空間模型
자동추취%K최근린%은함주제%향량공간모형
众所周知,K最近邻方法作为机器学习领域的一个经典的方法,在很多领域都有出色的表现.本文利用K最近邻方法的思想,提出了一种基于K最近邻的关键词自动抽取方法.现有的关键词抽取技术仅仅是对正文词汇的抽取,不能抽取隐含主题.隐含主题的抽取是关键词自动抽取技术的难点,但是该方法可以有效抽取隐含主题.该方法首先对数据进行预处理,使用向量空间模型将文本表述为数学化语言;然后,以人工标注关键词的文献数据作为训练集,使用K最近邻方法构建新文献的关键词候选集;最后,根据关键词本身的特点对候选关键词做了有效的后处理.实验表明,该方法不仅可以提高关键词抽取的准确率和召回率,还可以有效抽取文章的隐含主题.
衆所週知,K最近鄰方法作為機器學習領域的一箇經典的方法,在很多領域都有齣色的錶現.本文利用K最近鄰方法的思想,提齣瞭一種基于K最近鄰的關鍵詞自動抽取方法.現有的關鍵詞抽取技術僅僅是對正文詞彙的抽取,不能抽取隱含主題.隱含主題的抽取是關鍵詞自動抽取技術的難點,但是該方法可以有效抽取隱含主題.該方法首先對數據進行預處理,使用嚮量空間模型將文本錶述為數學化語言;然後,以人工標註關鍵詞的文獻數據作為訓練集,使用K最近鄰方法構建新文獻的關鍵詞候選集;最後,根據關鍵詞本身的特點對候選關鍵詞做瞭有效的後處理.實驗錶明,該方法不僅可以提高關鍵詞抽取的準確率和召迴率,還可以有效抽取文章的隱含主題.
음소주지,K최근린방법작위궤기학습영역적일개경전적방법,재흔다영역도유출색적표현.본문이용K최근린방법적사상,제출료일충기우K최근린적관건사자동추취방법.현유적관건사추취기술부부시대정문사회적추취,불능추취은함주제.은함주제적추취시관건사자동추취기술적난점,단시해방법가이유효추취은함주제.해방법수선대수거진행예처리,사용향량공간모형장문본표술위수학화어언;연후,이인공표주관건사적문헌수거작위훈련집,사용K최근린방법구건신문헌적관건사후선집;최후,근거관건사본신적특점대후선관건사주료유효적후처리.실험표명,해방법불부가이제고관건사추취적준학솔화소회솔,환가이유효추취문장적은함주제.