计算机研究与发展
計算機研究與髮展
계산궤연구여발전
JOURNAL OF COMPUTER RESEARCH AND DEVELOPMENT
2013年
9期
1825-1835
,共11页
关系抽取%弱监督学习%最大熵模型%协同训练%知识库构建
關繫抽取%弱鑑督學習%最大熵模型%協同訓練%知識庫構建
관계추취%약감독학습%최대적모형%협동훈련%지식고구건
relation extraction%weakly supervised learning%maximum entropy%co-training%knowledge base construction
在大数据时代,对于海量网络数据的信息抽取与应用已成为自然语言处理和信息检索技术发展的重要主题.其中,基于弱监督的关系抽取方法,因为具有不需要过多人工参与、适应性强的特点,受到了广泛的关注.目前针对它的研究主要集中在英语资源上,主要使用传统的词法和句法特征.然而,词法特征有严重的稀疏性问题,句法特征则对一些语言分析工具的性能有较强的依赖性.提出利用n-gram 特征来缓解传统词法特征稀疏性的问题.特别地,这种特征还可以弥补传统句法特征在其他语言上不可靠的情况,对于关系抽取的跨语言应用有重要作用.在此基础上,针对弱监督学习中标注数据不完全可靠的情况,提出基于bootstrapping思想的协同训练方法来对弱监督关系抽取模型进行强化,并且对预测关系时的协同策略进行了详细分析.在大规模的中文和英文数据上进行实验的结果显示,把传统特征与n-gram特征相结合并进行协同训练,在中文和英文数据集上均可以提升弱监督关系抽取的效果,可以适应多语言的关系抽取需求.
在大數據時代,對于海量網絡數據的信息抽取與應用已成為自然語言處理和信息檢索技術髮展的重要主題.其中,基于弱鑑督的關繫抽取方法,因為具有不需要過多人工參與、適應性彊的特點,受到瞭廣汎的關註.目前針對它的研究主要集中在英語資源上,主要使用傳統的詞法和句法特徵.然而,詞法特徵有嚴重的稀疏性問題,句法特徵則對一些語言分析工具的性能有較彊的依賴性.提齣利用n-gram 特徵來緩解傳統詞法特徵稀疏性的問題.特彆地,這種特徵還可以瀰補傳統句法特徵在其他語言上不可靠的情況,對于關繫抽取的跨語言應用有重要作用.在此基礎上,針對弱鑑督學習中標註數據不完全可靠的情況,提齣基于bootstrapping思想的協同訓練方法來對弱鑑督關繫抽取模型進行彊化,併且對預測關繫時的協同策略進行瞭詳細分析.在大規模的中文和英文數據上進行實驗的結果顯示,把傳統特徵與n-gram特徵相結閤併進行協同訓練,在中文和英文數據集上均可以提升弱鑑督關繫抽取的效果,可以適應多語言的關繫抽取需求.
재대수거시대,대우해량망락수거적신식추취여응용이성위자연어언처리화신식검색기술발전적중요주제.기중,기우약감독적관계추취방법,인위구유불수요과다인공삼여、괄응성강적특점,수도료엄범적관주.목전침대타적연구주요집중재영어자원상,주요사용전통적사법화구법특정.연이,사법특정유엄중적희소성문제,구법특정칙대일사어언분석공구적성능유교강적의뢰성.제출이용n-gram 특정래완해전통사법특정희소성적문제.특별지,저충특정환가이미보전통구법특정재기타어언상불가고적정황,대우관계추취적과어언응용유중요작용.재차기출상,침대약감독학습중표주수거불완전가고적정황,제출기우bootstrapping사상적협동훈련방법래대약감독관계추취모형진행강화,병차대예측관계시적협동책략진행료상세분석.재대규모적중문화영문수거상진행실험적결과현시,파전통특정여n-gram특정상결합병진행협동훈련,재중문화영문수거집상균가이제승약감독관계추취적효과,가이괄응다어언적관계추취수구.