山西大学学报(自然科学版)
山西大學學報(自然科學版)
산서대학학보(자연과학판)
JOURNAL OF SHANXI UNIVERSITY
2011年
4期
513-517
,共5页
汉语词性标注%单个词语特征模板%最大熵模型%上下文%上下文窗口
漢語詞性標註%單箇詞語特徵模闆%最大熵模型%上下文%上下文窗口
한어사성표주%단개사어특정모판%최대적모형%상하문%상하문창구
针对实际应用中语言模型应该占用更小存储空间且加载速度快等需求,采用最大熵模型进一步研究了汉语词性标注中设定的特征模板集和训练后模型大小、标注精度等指标之间的关系,并在国际汉语分词评测Bake off2007的PKU、NCC、CTB三种语料上进行了对比实验.实验结果表明,双词语组合特征模板大大增加了训练后模型的大小,对汉语词性标注精度却没有提高,而基于单个词语特征模板训练后的模型大小不足原先大小的1/5,标注精度却没有下降.
針對實際應用中語言模型應該佔用更小存儲空間且加載速度快等需求,採用最大熵模型進一步研究瞭漢語詞性標註中設定的特徵模闆集和訓練後模型大小、標註精度等指標之間的關繫,併在國際漢語分詞評測Bake off2007的PKU、NCC、CTB三種語料上進行瞭對比實驗.實驗結果錶明,雙詞語組閤特徵模闆大大增加瞭訓練後模型的大小,對漢語詞性標註精度卻沒有提高,而基于單箇詞語特徵模闆訓練後的模型大小不足原先大小的1/5,標註精度卻沒有下降.
침대실제응용중어언모형응해점용경소존저공간차가재속도쾌등수구,채용최대적모형진일보연구료한어사성표주중설정적특정모판집화훈련후모형대소、표주정도등지표지간적관계,병재국제한어분사평측Bake off2007적PKU、NCC、CTB삼충어료상진행료대비실험.실험결과표명,쌍사어조합특정모판대대증가료훈련후모형적대소,대한어사성표주정도각몰유제고,이기우단개사어특정모판훈련후적모형대소불족원선대소적1/5,표주정도각몰유하강.