南京大学学报(自然科学版)
南京大學學報(自然科學版)
남경대학학보(자연과학판)
JOURNAL OF NANJING UNIVERSITY(NATURAL SCIENCES)
2015年
1期
181-186
,共6页
陈鹏%郭剑毅%余正涛%严馨%张志坤%高盛祥
陳鵬%郭劍毅%餘正濤%嚴馨%張誌坤%高盛祥
진붕%곽검의%여정도%엄형%장지곤%고성상
领域知识树%核函数%隐式关系抽取%支持向量机
領域知識樹%覈函數%隱式關繫抽取%支持嚮量機
영역지식수%핵함수%은식관계추취%지지향량궤
domain knowledge tree%kernel function%implicit relation extraction%support vector machine
针对在核函数方法中,传统短语树只包含通用领域信息难以训练出适应特定领域关系抽取模型的问题,本文提出一种融入领域知识短语树的中文领域实体关系抽取方法.基于 Web 上中文特定领域网站的信息结构特点,构建出能反映特定领域实体语义关系的领域知识树,并将其融合到实例句的句法树中,得到特定领域实体语义树.然后通过支持向量机训练,得到实体关系的分类模型,对特定领域实体关系进行抽取.在收集的600篇旅游领域语料上进行关系抽取实验,结果表明:本文所提出的方法优于不融入领域信息的方法,F值提高了3.4%.
針對在覈函數方法中,傳統短語樹隻包含通用領域信息難以訓練齣適應特定領域關繫抽取模型的問題,本文提齣一種融入領域知識短語樹的中文領域實體關繫抽取方法.基于 Web 上中文特定領域網站的信息結構特點,構建齣能反映特定領域實體語義關繫的領域知識樹,併將其融閤到實例句的句法樹中,得到特定領域實體語義樹.然後通過支持嚮量機訓練,得到實體關繫的分類模型,對特定領域實體關繫進行抽取.在收集的600篇旅遊領域語料上進行關繫抽取實驗,結果錶明:本文所提齣的方法優于不融入領域信息的方法,F值提高瞭3.4%.
침대재핵함수방법중,전통단어수지포함통용영역신식난이훈련출괄응특정영역관계추취모형적문제,본문제출일충융입영역지식단어수적중문영역실체관계추취방법.기우 Web 상중문특정영역망참적신식결구특점,구건출능반영특정영역실체어의관계적영역지식수,병장기융합도실례구적구법수중,득도특정영역실체어의수.연후통과지지향량궤훈련,득도실체관계적분류모형,대특정영역실체관계진행추취.재수집적600편여유영역어료상진행관계추취실험,결과표명:본문소제출적방법우우불융입영역신식적방법,F치제고료3.4%.
To solve the problem that the traditional tree kernel method is not able to train the suited model to extract entity relation in given domain,this paper proposed a method of Chinese domain entity relation extraction based on domain knowledge phrasal tree.Based on the features in web page of Chinese domain-specific website,this paper structured a domain knowledge tree which can reflect semantic information between domain entities,and fuse the in-formation into the traditional phrasal tree.Finally,this paper obtained a classification model of entity relationship by using support vector machine to extract entity relation in given domain.Through the relation extraction experiments on collecting 600 corpuses in tourist domain,the experimental results show that the presented method is better than the traditional tree method,and the F value increases 3.4%.