中文信息学报
中文信息學報
중문신식학보
JOURNAL OF CHINESE INFORMAITON PROCESSING
2012年
2期
18-22
,共5页
主动学习%依存句法%不确定性度量%委员会投票
主動學習%依存句法%不確定性度量%委員會投票
주동학습%의존구법%불학정성도량%위원회투표
目前依存句法分析仍主要采用有指导的机器学习方法,即需要大规模高质量的树库作为训练语料,而现阶段中文依存树库资源相对较少,树库标注又是一件费时费力的工作.面对大量未标注语料,该文将主动学习应用到中文依存句法分析,优先选择句法模型预测不准的实例交由人工标注.该文提出并比较了多种衡量依存句法模型预测可信度的准则.实验表明,一方面,与随机选择标注实例相比,当使用相同数目训练实例时,主动学习使中文依存分析性能最高提升0.8%;另一方面,主动学习使依存分析达到相同准确率时只需标注更少量实例,人工标注量最多可减少30%.
目前依存句法分析仍主要採用有指導的機器學習方法,即需要大規模高質量的樹庫作為訓練語料,而現階段中文依存樹庫資源相對較少,樹庫標註又是一件費時費力的工作.麵對大量未標註語料,該文將主動學習應用到中文依存句法分析,優先選擇句法模型預測不準的實例交由人工標註.該文提齣併比較瞭多種衡量依存句法模型預測可信度的準則.實驗錶明,一方麵,與隨機選擇標註實例相比,噹使用相同數目訓練實例時,主動學習使中文依存分析性能最高提升0.8%;另一方麵,主動學習使依存分析達到相同準確率時隻需標註更少量實例,人工標註量最多可減少30%.
목전의존구법분석잉주요채용유지도적궤기학습방법,즉수요대규모고질량적수고작위훈련어료,이현계단중문의존수고자원상대교소,수고표주우시일건비시비력적공작.면대대량미표주어료,해문장주동학습응용도중문의존구법분석,우선선택구법모형예측불준적실례교유인공표주.해문제출병비교료다충형량의존구법모형예측가신도적준칙.실험표명,일방면,여수궤선택표주실례상비,당사용상동수목훈련실례시,주동학습사중문의존분석성능최고제승0.8%;령일방면,주동학습사의존분석체도상동준학솔시지수표주경소량실례,인공표주량최다가감소30%.