情报学报
情報學報
정보학보
2012年
7期
702-708
,共7页
李丽双%党延忠%张婧%王敏
李麗雙%黨延忠%張婧%王敏
리려쌍%당연충%장청%왕민
关系抽取%组合核%平面核%卷积树核
關繫抽取%組閤覈%平麵覈%捲積樹覈
관계추취%조합핵%평면핵%권적수핵
将基于特征向量的平面核和基于句法分析树的结构核组合,进行中文实体关系抽取.首先进行特征选择实验,为构造平面核中的特征向量选择最优特征集合,特征包括实体大类、实体子类、实体类别等实体信息以及实体对在句子中的前后词信息.在定义结构核函数时,从包含两个实体的句子中提取最短路径包含树(shortest path tree,SPT),然后使用卷积树核函数来计算两棵SPT树的相似度.在ACE RDC 2005中文语料库上进行实体关系大类的抽取实验,其F值达到了68.50%,比两个单独核函数的方法分别提高4.36%和17.37%.同时,在组合核中也进行了特征选择实验,得到了最好关系抽取性能的F值为70.58%,说明单独平面核的最优特征集在组合核中未必最优.结果表明,本文利用实体语义信息构造平面核并与结构核组合,对于中文实体关系抽取具有较好的性能.
將基于特徵嚮量的平麵覈和基于句法分析樹的結構覈組閤,進行中文實體關繫抽取.首先進行特徵選擇實驗,為構造平麵覈中的特徵嚮量選擇最優特徵集閤,特徵包括實體大類、實體子類、實體類彆等實體信息以及實體對在句子中的前後詞信息.在定義結構覈函數時,從包含兩箇實體的句子中提取最短路徑包含樹(shortest path tree,SPT),然後使用捲積樹覈函數來計算兩棵SPT樹的相似度.在ACE RDC 2005中文語料庫上進行實體關繫大類的抽取實驗,其F值達到瞭68.50%,比兩箇單獨覈函數的方法分彆提高4.36%和17.37%.同時,在組閤覈中也進行瞭特徵選擇實驗,得到瞭最好關繫抽取性能的F值為70.58%,說明單獨平麵覈的最優特徵集在組閤覈中未必最優.結果錶明,本文利用實體語義信息構造平麵覈併與結構覈組閤,對于中文實體關繫抽取具有較好的性能.
장기우특정향량적평면핵화기우구법분석수적결구핵조합,진행중문실체관계추취.수선진행특정선택실험,위구조평면핵중적특정향량선택최우특정집합,특정포괄실체대류、실체자류、실체유별등실체신식이급실체대재구자중적전후사신식.재정의결구핵함수시,종포함량개실체적구자중제취최단로경포함수(shortest path tree,SPT),연후사용권적수핵함수래계산량과SPT수적상사도.재ACE RDC 2005중문어료고상진행실체관계대류적추취실험,기F치체도료68.50%,비량개단독핵함수적방법분별제고4.36%화17.37%.동시,재조합핵중야진행료특정선택실험,득도료최호관계추취성능적F치위70.58%,설명단독평면핵적최우특정집재조합핵중미필최우.결과표명,본문이용실체어의신식구조평면핵병여결구핵조합,대우중문실체관계추취구유교호적성능.