中文信息学报
中文信息學報
중문신식학보
JOURNAL OF CHINESE INFORMAITON PROCESSING
2014年
6期
1-8,17
,共9页
郭振%张玉洁%苏晨%徐金安
郭振%張玉潔%囌晨%徐金安
곽진%장옥길%소신%서금안
联合模型%中文分词和词性标注%依存句法分析%词语内部依存结构%半监督学习
聯閤模型%中文分詞和詞性標註%依存句法分析%詞語內部依存結構%半鑑督學習
연합모형%중문분사화사성표주%의존구법분석%사어내부의존결구%반감독학습
joint model%Chinese word segmentation and POS tagging%dependency parsing%word internal dependency structure%semi-supervised learning
目前,基于转移的中文分词、词性标注和依存句法分析联合模型存在两大问题:一是任务的融合方式有待改进;二是模型性能受限于全标注语料的规模.针对第一个问题,该文利用词语内部结构将基于词语的依存句法树扩展成了基于字符的依存句法树,采用转移策略,实现了基于字符的中文分词、词性标注和依存句法分析联合模型;依据序列标注的中文分词方法,将基于转移的中文分词处理方案重新设计为4种转移动作:Shift S、Shift B、Shift M和Shift E,同时能够将以往中文分词的研究成果融入联合模型.针对第二个问题,该文使用具有部分标注信息的语料,从中抽取字符串层面的n-gram特征和结构层面的依存子树特征融入联合模型,实现了半监督的中文分词、词性标注和依存句法分析联合模型.在宾州中文树库上的实验结果表明,该文的模型在中文分词、词性标注和依存分析任务上的F1值分别达到了98.31%、94.84%和81.71%,较单任务模型的结果分别提升了0.92%、1.77%和3.95%.其中,中文分词和词性标注在目前公布的研究结果中取得了最好成绩.
目前,基于轉移的中文分詞、詞性標註和依存句法分析聯閤模型存在兩大問題:一是任務的融閤方式有待改進;二是模型性能受限于全標註語料的規模.針對第一箇問題,該文利用詞語內部結構將基于詞語的依存句法樹擴展成瞭基于字符的依存句法樹,採用轉移策略,實現瞭基于字符的中文分詞、詞性標註和依存句法分析聯閤模型;依據序列標註的中文分詞方法,將基于轉移的中文分詞處理方案重新設計為4種轉移動作:Shift S、Shift B、Shift M和Shift E,同時能夠將以往中文分詞的研究成果融入聯閤模型.針對第二箇問題,該文使用具有部分標註信息的語料,從中抽取字符串層麵的n-gram特徵和結構層麵的依存子樹特徵融入聯閤模型,實現瞭半鑑督的中文分詞、詞性標註和依存句法分析聯閤模型.在賓州中文樹庫上的實驗結果錶明,該文的模型在中文分詞、詞性標註和依存分析任務上的F1值分彆達到瞭98.31%、94.84%和81.71%,較單任務模型的結果分彆提升瞭0.92%、1.77%和3.95%.其中,中文分詞和詞性標註在目前公佈的研究結果中取得瞭最好成績.
목전,기우전이적중문분사、사성표주화의존구법분석연합모형존재량대문제:일시임무적융합방식유대개진;이시모형성능수한우전표주어료적규모.침대제일개문제,해문이용사어내부결구장기우사어적의존구법수확전성료기우자부적의존구법수,채용전이책략,실현료기우자부적중문분사、사성표주화의존구법분석연합모형;의거서렬표주적중문분사방법,장기우전이적중문분사처리방안중신설계위4충전이동작:Shift S、Shift B、Shift M화Shift E,동시능구장이왕중문분사적연구성과융입연합모형.침대제이개문제,해문사용구유부분표주신식적어료,종중추취자부천층면적n-gram특정화결구층면적의존자수특정융입연합모형,실현료반감독적중문분사、사성표주화의존구법분석연합모형.재빈주중문수고상적실험결과표명,해문적모형재중문분사、사성표주화의존분석임무상적F1치분별체도료98.31%、94.84%화81.71%,교단임무모형적결과분별제승료0.92%、1.77%화3.95%.기중,중문분사화사성표주재목전공포적연구결과중취득료최호성적.