华南理工大学学报(自然科学版)
華南理工大學學報(自然科學版)
화남리공대학학보(자연과학판)
JOURNAL OF SOUTH CHINA UNIVERSITY OF TECHNOLOGY(NATURAL SCIENCE EDITION)
2007年
9期
90-94,106
,共6页
信息抽取%条件随机场%引文信息%论文头部信息
信息抽取%條件隨機場%引文信息%論文頭部信息
신식추취%조건수궤장%인문신식%논문두부신식
科研论文头部信息和引文信息对基于域的论文检索、统计和引用分析是必不可少的.由于隐马尔可夫模型不能充分利用对抽取有用的上下文特征,因此文中提出了一种基于条件随机场的中文科研论文头部和引文信息抽取方法,该方法的关键在于模型参数估计和特征选择.实验中采用L-BFGS算法学习模型参数,并选择局部、版面、词典和状态转移4类特征作为模型特征集.在信息抽取时先利用分隔符、特定标识符等格式信息对文本进行分块,在分块基础上用条件随机场进行指定域的抽取.实验表明,该方法抽取性能明显优于基于隐马尔可夫模型的方法,且加入不同的特征集对抽取性能提升作用不同.
科研論文頭部信息和引文信息對基于域的論文檢索、統計和引用分析是必不可少的.由于隱馬爾可伕模型不能充分利用對抽取有用的上下文特徵,因此文中提齣瞭一種基于條件隨機場的中文科研論文頭部和引文信息抽取方法,該方法的關鍵在于模型參數估計和特徵選擇.實驗中採用L-BFGS算法學習模型參數,併選擇跼部、版麵、詞典和狀態轉移4類特徵作為模型特徵集.在信息抽取時先利用分隔符、特定標識符等格式信息對文本進行分塊,在分塊基礎上用條件隨機場進行指定域的抽取.實驗錶明,該方法抽取性能明顯優于基于隱馬爾可伕模型的方法,且加入不同的特徵集對抽取性能提升作用不同.
과연논문두부신식화인문신식대기우역적논문검색、통계화인용분석시필불가소적.유우은마이가부모형불능충분이용대추취유용적상하문특정,인차문중제출료일충기우조건수궤장적중문과연논문두부화인문신식추취방법,해방법적관건재우모형삼수고계화특정선택.실험중채용L-BFGS산법학습모형삼수,병선택국부、판면、사전화상태전이4류특정작위모형특정집.재신식추취시선이용분격부、특정표식부등격식신식대문본진행분괴,재분괴기출상용조건수궤장진행지정역적추취.실험표명,해방법추취성능명현우우기우은마이가부모형적방법,차가입불동적특정집대추취성능제승작용불동.