计算机工程与应用
計算機工程與應用
계산궤공정여응용
COMPUTER ENGINEERING AND APPLICATIONS
2014年
6期
106-111
,共6页
张菲菲%李宗海%周晓辉%李晓戈
張菲菲%李宗海%週曉輝%李曉戈
장비비%리종해%주효휘%리효과
人名消歧%信息抽取%相似度%层次聚类
人名消歧%信息抽取%相似度%層次聚類
인명소기%신식추취%상사도%층차취류
entity disambiguation%information extraction%similarity%hierarchical clustering
人名消歧已经成为自然语言处理和信息抽取应用中亟待解决的重要问题。运用中文自然语言处理和信息抽取系统识别命名实体和实体关系,生成实体信息对象(Entity Profile),采用实体信息对象(EP)中的个人信息特征,实体关系和上下文相关信息在Hadoop平台上基于凝聚的层次聚类方法解决了实体消歧问题。采用哈尔滨工业大学整理的全网新闻语料作为人名消歧训练和测试数据,着重研究了中文人名消歧特征的选取,参数的确定和验证,在训练集和测试集上分别取得了91.33%和88.73%的F值。说明提出的方法具有较好的可行性。
人名消歧已經成為自然語言處理和信息抽取應用中亟待解決的重要問題。運用中文自然語言處理和信息抽取繫統識彆命名實體和實體關繫,生成實體信息對象(Entity Profile),採用實體信息對象(EP)中的箇人信息特徵,實體關繫和上下文相關信息在Hadoop平檯上基于凝聚的層次聚類方法解決瞭實體消歧問題。採用哈爾濱工業大學整理的全網新聞語料作為人名消歧訓練和測試數據,著重研究瞭中文人名消歧特徵的選取,參數的確定和驗證,在訓練集和測試集上分彆取得瞭91.33%和88.73%的F值。說明提齣的方法具有較好的可行性。
인명소기이경성위자연어언처리화신식추취응용중극대해결적중요문제。운용중문자연어언처리화신식추취계통식별명명실체화실체관계,생성실체신식대상(Entity Profile),채용실체신식대상(EP)중적개인신식특정,실체관계화상하문상관신식재Hadoop평태상기우응취적층차취류방법해결료실체소기문제。채용합이빈공업대학정리적전망신문어료작위인명소기훈련화측시수거,착중연구료중문인명소기특정적선취,삼수적학정화험증,재훈련집화측시집상분별취득료91.33%화88.73%적F치。설명제출적방법구유교호적가행성。
Cross-document entity disambiguation is the problem of identifying whether mentions from different documents refer to the same or distinct entities. This paper describes a Chinese information extraction system which involves both document-level IE and corpus-level IE, a pipeline and multi-level modular approach to name entity and Entity Profile extrac-tion. It introduces novel features based on document-level entity profiles and study on the influence of feature selection, parameter selection, parameter validation and analysis on results. Disambiguation is performed based on agglomerative hier-archical clustering using Hadoop. Experiments show that F-measure of training set is 91.33% and testing set is 88.73%, using the whole network news corpus dataset from Harbin Institute of Technology.