吉林大学学报(信息科学版)
吉林大學學報(信息科學版)
길림대학학보(신식과학판)
JOURNAL OF JILIN UNIVERSITY(INFORMATION SCIENCE EDITION)
2005年
5期
535-540
,共6页
自然语言处理%主题词提取%概念语义网络
自然語言處理%主題詞提取%概唸語義網絡
자연어언처리%주제사제취%개념어의망락
为了适应信息时代的迅速发展,提高从汉语文献中自动提取主题词的准确率,给出一种基于语义理解的汉语文献主题词自动提取算法模型.该模型以中文文本为处理对象,结合领域背景,构建概念语义网络作为分词词典和知识库,用概念之间的联系和匹配取代传统的字面匹配,克服了仅局限于表面形式的缺陷;把自然语言处理从目前基于关键词层面提高到基于知识的层面,从而在概念层次上理解文献主题,突破了传统的关键词匹配的局限,在一定程度上解决了词汇差异问题.该方法能对自然语言进行某种程度的语义理解,利用领域知识来实现主题词的规范标引.实验表明,采用本方法对测试文档进行主题词提取的准确率可达到71.03%,与传统方法相比提高了近1.87倍.
為瞭適應信息時代的迅速髮展,提高從漢語文獻中自動提取主題詞的準確率,給齣一種基于語義理解的漢語文獻主題詞自動提取算法模型.該模型以中文文本為處理對象,結閤領域揹景,構建概唸語義網絡作為分詞詞典和知識庫,用概唸之間的聯繫和匹配取代傳統的字麵匹配,剋服瞭僅跼限于錶麵形式的缺陷;把自然語言處理從目前基于關鍵詞層麵提高到基于知識的層麵,從而在概唸層次上理解文獻主題,突破瞭傳統的關鍵詞匹配的跼限,在一定程度上解決瞭詞彙差異問題.該方法能對自然語言進行某種程度的語義理解,利用領域知識來實現主題詞的規範標引.實驗錶明,採用本方法對測試文檔進行主題詞提取的準確率可達到71.03%,與傳統方法相比提高瞭近1.87倍.
위료괄응신식시대적신속발전,제고종한어문헌중자동제취주제사적준학솔,급출일충기우어의리해적한어문헌주제사자동제취산법모형.해모형이중문문본위처리대상,결합영역배경,구건개념어의망락작위분사사전화지식고,용개념지간적련계화필배취대전통적자면필배,극복료부국한우표면형식적결함;파자연어언처리종목전기우관건사층면제고도기우지식적층면,종이재개념층차상리해문헌주제,돌파료전통적관건사필배적국한,재일정정도상해결료사회차이문제.해방법능대자연어언진행모충정도적어의리해,이용영역지식래실현주제사적규범표인.실험표명,채용본방법대측시문당진행주제사제취적준학솔가체도71.03%,여전통방법상비제고료근1.87배.