国防科技大学学报
國防科技大學學報
국방과기대학학보
JOURNAL OF NATIONAL UNIVERSITY OF DEFENSE TECHNOLOGY
2014年
4期
82-88
,共7页
钟志农%刘方驰%吴烨%伍江江
鐘誌農%劉方馳%吳燁%伍江江
종지농%류방치%오엽%오강강
主动学习%自学习%条件随机场%命名实体识别
主動學習%自學習%條件隨機場%命名實體識彆
주동학습%자학습%조건수궤장%명명실체식별
active learning%self-training%conditional random fields%named entity recognition
命名实体识别是信息抽取中的一项基础性任务,如何利用丰富的未标注语料来提高实体识别的指标是该领域一个重要的研究方向。基于条件随机场提出一种将主动学习与自学习相结合的方法---SACRF,通过设置置信度函数和2-Gram频度阈值来选取样本,并采用人工与自动相结合的方式进行标注来扩展训练语料。实验表明,该方法在提高实体识别的精确率和召回率的同时,能够显著地降低人工标注的工作量。
命名實體識彆是信息抽取中的一項基礎性任務,如何利用豐富的未標註語料來提高實體識彆的指標是該領域一箇重要的研究方嚮。基于條件隨機場提齣一種將主動學習與自學習相結閤的方法---SACRF,通過設置置信度函數和2-Gram頻度閾值來選取樣本,併採用人工與自動相結閤的方式進行標註來擴展訓練語料。實驗錶明,該方法在提高實體識彆的精確率和召迴率的同時,能夠顯著地降低人工標註的工作量。
명명실체식별시신식추취중적일항기출성임무,여하이용봉부적미표주어료래제고실체식별적지표시해영역일개중요적연구방향。기우조건수궤장제출일충장주동학습여자학습상결합적방법---SACRF,통과설치치신도함수화2-Gram빈도역치래선취양본,병채용인공여자동상결합적방식진행표주래확전훈련어료。실험표명,해방법재제고실체식별적정학솔화소회솔적동시,능구현저지강저인공표주적공작량。
Named Entity Recognition (NER)is a basic task in information extraction,and it is an important research direction in this domain to use the abundant unlabeled corpus to improve the performance of NER system.An approach combining self-training with active learning based on CRF (SACRF)is proposed.It selected samples by setting the threshold of confidence and 2-Gram frequency,and expanded the training set by annotating the unlabeled corpus manually and automatically.The experiments revealed that this approach can not only improve the precision and recall of NER system,but also reduce the manually annotation efforts greatly.