世界科学技术-中医药现代化
世界科學技術-中醫藥現代化
세계과학기술-중의약현대화
WORLD SCIENCE AND TECHNOLOGY-MODERNIZATION OF TRADITIONAL CHINESE MEDICINE
2015年
1期
29-34
,共6页
马运运%孙志一%刘海波%彭勇
馬運運%孫誌一%劉海波%彭勇
마운운%손지일%류해파%팽용
中文专利文档%关键词提取%TF-IDF%关联信息%机器学习
中文專利文檔%關鍵詞提取%TF-IDF%關聯信息%機器學習
중문전리문당%관건사제취%TF-IDF%관련신식%궤기학습
Chinese Patent Documentation%Keyword extraction%TF-IDF%Associated information%Machine Learning
专利是一种包含学术、商业、法律等信息的科技文献,记录了大量新颖、实用的研究成果,近年来关注度不断提高.利用共词分析、文本聚类等方法对专利文献进行信息分析时,往往需要借助关键词提取技术达到降低数据复杂度、过滤噪声的目的.关键词提取技术多数基于统计规律.本文对基于词频、关联信息和多特征的关键词提取方法研究进展进行了总结,介绍了常用的分别以TF-IDF、熵、词汇链、TextRank、遗传算法、决策树学习、朴素贝叶斯分类器、支持向量机等为主导的方法.另外,本文还总结了在专利文档关键词提取中可能用到的词频、位置、语义、关联、自身等方面的特征.实际应用中,关键词自动提取技术可作为一种有力的辅助手段,降低数据处理过程中的人力和时间成本.
專利是一種包含學術、商業、法律等信息的科技文獻,記錄瞭大量新穎、實用的研究成果,近年來關註度不斷提高.利用共詞分析、文本聚類等方法對專利文獻進行信息分析時,往往需要藉助關鍵詞提取技術達到降低數據複雜度、過濾譟聲的目的.關鍵詞提取技術多數基于統計規律.本文對基于詞頻、關聯信息和多特徵的關鍵詞提取方法研究進展進行瞭總結,介紹瞭常用的分彆以TF-IDF、熵、詞彙鏈、TextRank、遺傳算法、決策樹學習、樸素貝葉斯分類器、支持嚮量機等為主導的方法.另外,本文還總結瞭在專利文檔關鍵詞提取中可能用到的詞頻、位置、語義、關聯、自身等方麵的特徵.實際應用中,關鍵詞自動提取技術可作為一種有力的輔助手段,降低數據處理過程中的人力和時間成本.
전리시일충포함학술、상업、법률등신식적과기문헌,기록료대량신영、실용적연구성과,근년래관주도불단제고.이용공사분석、문본취류등방법대전리문헌진행신식분석시,왕왕수요차조관건사제취기술체도강저수거복잡도、과려조성적목적.관건사제취기술다수기우통계규률.본문대기우사빈、관련신식화다특정적관건사제취방법연구진전진행료총결,개소료상용적분별이TF-IDF、적、사회련、TextRank、유전산법、결책수학습、박소패협사분류기、지지향량궤등위주도적방법.령외,본문환총결료재전리문당관건사제취중가능용도적사빈、위치、어의、관련、자신등방면적특정.실제응용중,관건사자동제취기술가작위일충유력적보조수단,강저수거처리과정중적인력화시간성본.