计算机科学与探索
計算機科學與探索
계산궤과학여탐색
Journal of Frontiers of Computer Science & Technology
2015年
10期
1238-1246
,共9页
李晓静%林海伦%贾岩涛%王元卓%程学旗
李曉靜%林海倫%賈巖濤%王元卓%程學旂
리효정%림해륜%가암도%왕원탁%정학기
实体标注%在线百科%命名实体%实体分类
實體標註%在線百科%命名實體%實體分類
실체표주%재선백과%명명실체%실체분류
entity tagging%online encyclopedia%named entity%entity classification
在线百科实体标注目的是标注出属于特定类别(如人名、地名、机构名等)的实体。百科实体标注对大量的应用,诸如实体消歧、实体关系挖掘、知识库构建都很重要。百科实体特征可以分为结构特征(属性框、标题、类别等)和内容特征(页面正文)。现有的标注方法大多只考虑一种特征或者一种分类器,导致F1值较低,无法充分发挥两种特征的优势。因此,提出了融合页面结构特征和内容特征的在线百科实体标注方法。该方法考虑了两种特征对标注结果的影响,分别构造分类器,并且对结果进行线性组合,能够更准确地实现百科实体的实体标注。实验表明,该方法在实体标注中F1值较其他对比实验方法均有所提高。
在線百科實體標註目的是標註齣屬于特定類彆(如人名、地名、機構名等)的實體。百科實體標註對大量的應用,諸如實體消歧、實體關繫挖掘、知識庫構建都很重要。百科實體特徵可以分為結構特徵(屬性框、標題、類彆等)和內容特徵(頁麵正文)。現有的標註方法大多隻攷慮一種特徵或者一種分類器,導緻F1值較低,無法充分髮揮兩種特徵的優勢。因此,提齣瞭融閤頁麵結構特徵和內容特徵的在線百科實體標註方法。該方法攷慮瞭兩種特徵對標註結果的影響,分彆構造分類器,併且對結果進行線性組閤,能夠更準確地實現百科實體的實體標註。實驗錶明,該方法在實體標註中F1值較其他對比實驗方法均有所提高。
재선백과실체표주목적시표주출속우특정유별(여인명、지명、궤구명등)적실체。백과실체표주대대량적응용,제여실체소기、실체관계알굴、지식고구건도흔중요。백과실체특정가이분위결구특정(속성광、표제、유별등)화내용특정(혈면정문)。현유적표주방법대다지고필일충특정혹자일충분류기,도치F1치교저,무법충분발휘량충특정적우세。인차,제출료융합혈면결구특정화내용특정적재선백과실체표주방법。해방법고필료량충특정대표주결과적영향,분별구조분류기,병차대결과진행선성조합,능구경준학지실현백과실체적실체표주。실험표명,해방법재실체표주중F1치교기타대비실험방법균유소제고。
Online encyclopedia entity tagging aims to label online encyclopedia pages with standard named entity tags such as person, location and organization. It is crucial for a wide range of applications such as entity disambigu-ation, entity relation inference and knowledge base construction and so on. Features of encyclopedia pages can be divided as structure features (e.g., Infobox, title, and category) and content features (i.e., page content). Existing methods that only take one feature or simply combine both features in one classification cause low F1 value. These methods don’t make full use of the difference of these features. This paper presents an online encyclopedia entities tagging method based on page structure and content. This method firstly builds two classifiers with the two kinds of features respectively, and then builds a new classifier by linear combination of these two classifiers, so this method can accurately realize entities tagging. The experimental results show that this method can achieve F1 value improve-ment over the baseline methods on the task of encyclopedia entity tagging.