集成技术
集成技術
집성기술
Journal of Integration Technology
2013年
5期
1-4
,共4页
李红亮%杨燕%尹红风%贾真
李紅亮%楊燕%尹紅風%賈真
리홍량%양연%윤홍풍%가진
人物属性抽取%规则获取%自由文本
人物屬性抽取%規則穫取%自由文本
인물속성추취%규칙획취%자유문본
character attributes extraction%rules acquisition%free text
@@@@信息抽取是数据挖掘的一个重要领域,文本信息抽取是指从一段自由文本中抽取出指定的信息并将其结构化数据存入知识库供用户查询或下一步处理所用。人物属性信息抽取是智能人物类搜索引擎构建的重要基础,同时结构化信息也是计算机所能理解的一种数据格式。作者提出了一种自动获取百科人物属性的方法,该方法利用各属性值的词性信息来定位到百科自由文本中,通过统计的方法发现规则,再根据规则匹配从百科文本中获取人物属性信息。实验表明该方法从百科文本中抽取人物属性信息是有效的。抽取的结果可以用来构建人物属性知识库。
@@@@信息抽取是數據挖掘的一箇重要領域,文本信息抽取是指從一段自由文本中抽取齣指定的信息併將其結構化數據存入知識庫供用戶查詢或下一步處理所用。人物屬性信息抽取是智能人物類搜索引擎構建的重要基礎,同時結構化信息也是計算機所能理解的一種數據格式。作者提齣瞭一種自動穫取百科人物屬性的方法,該方法利用各屬性值的詞性信息來定位到百科自由文本中,通過統計的方法髮現規則,再根據規則匹配從百科文本中穫取人物屬性信息。實驗錶明該方法從百科文本中抽取人物屬性信息是有效的。抽取的結果可以用來構建人物屬性知識庫。
@@@@신식추취시수거알굴적일개중요영역,문본신식추취시지종일단자유문본중추취출지정적신식병장기결구화수거존입지식고공용호사순혹하일보처리소용。인물속성신식추취시지능인물류수색인경구건적중요기출,동시결구화신식야시계산궤소능리해적일충수거격식。작자제출료일충자동획취백과인물속성적방법,해방법이용각속성치적사성신식래정위도백과자유문본중,통과통계적방법발현규칙,재근거규칙필배종백과문본중획취인물속성신식。실험표명해방법종백과문본중추취인물속성신식시유효적。추취적결과가이용래구건인물속성지식고。
Information extraction is an important area of data mining. Text information extraction means extracting specified information from a section of free text and storing structured data in the knowledge base for user querying or further processing. Character attribute information extraction is an important instrument of building search engine of persons, and is also a technology for computer program understanding. This paper presents an automatic method to obtain encyclopedia character attributes, and this method uses the speech tagging of each attribute value to locate the encyclopedia free text. The rules are discovered by statistical method, and the character attributes information is obtained from encyclopedia text according to rules matching. Experiments show that this method is effective in extracting character attribute information from encyclopedia text. The extracted results can be used to build the knowledge base of the character attributes.