软件学报
軟件學報
연건학보
JOURNAL OF SOFTWARE
2007年
2期
196-204
,共9页
语言建模%判别训练算法%输入法编辑器%最小化样本风险%领域适应性建模
語言建模%判彆訓練算法%輸入法編輯器%最小化樣本風險%領域適應性建模
어언건모%판별훈련산법%수입법편집기%최소화양본풍험%영역괄응성건모
目前,一些主流的判别学习算法只能优化光滑可导的损失函数,但在自然语言处理(natural language processing,简称NLP)中,很多应用的直接评价标准(如字符转换错误数(character error rate,简称CER))都是不可导的阶梯形函数.为解决此问题,研究了一种新提出的判别学习算法--最小化样本风险(minimum sample risk,简称MSR)算法.与其他判别训练算法不同,MSR算法直接使用阶梯形函数作为其损失函数.首先,对MSR算法的时空复杂性作了分析和提高;同时,提出了改进的算法MSR-II,使得特征之间相关性的计算更加稳定.此外,还通过大量领域适应性建模实验来考察MSR-II的鲁棒性.日文汉字输入实验的评测结果表明:(1) MSR/MSR-II显著优于传统三元模型,使错误率下降了20.9%;(2) MSR/MSR-II与另两类主流判别学习算法Boosting和Perceptron表现相当;(3) MSR-II不仅在时空复杂度上优于MSR,特征选择的稳定性也更高;(4) 领域适应性建模的结果证明了MSR-II的良好鲁棒性.总之,MSR/MSR-II是一种非常有效的算法.由于其使用的是阶梯形的损失函数,因此可以广泛应用于自然语言处理的各个领域,如拼写校正和机器翻译.
目前,一些主流的判彆學習算法隻能優化光滑可導的損失函數,但在自然語言處理(natural language processing,簡稱NLP)中,很多應用的直接評價標準(如字符轉換錯誤數(character error rate,簡稱CER))都是不可導的階梯形函數.為解決此問題,研究瞭一種新提齣的判彆學習算法--最小化樣本風險(minimum sample risk,簡稱MSR)算法.與其他判彆訓練算法不同,MSR算法直接使用階梯形函數作為其損失函數.首先,對MSR算法的時空複雜性作瞭分析和提高;同時,提齣瞭改進的算法MSR-II,使得特徵之間相關性的計算更加穩定.此外,還通過大量領域適應性建模實驗來攷察MSR-II的魯棒性.日文漢字輸入實驗的評測結果錶明:(1) MSR/MSR-II顯著優于傳統三元模型,使錯誤率下降瞭20.9%;(2) MSR/MSR-II與另兩類主流判彆學習算法Boosting和Perceptron錶現相噹;(3) MSR-II不僅在時空複雜度上優于MSR,特徵選擇的穩定性也更高;(4) 領域適應性建模的結果證明瞭MSR-II的良好魯棒性.總之,MSR/MSR-II是一種非常有效的算法.由于其使用的是階梯形的損失函數,因此可以廣汎應用于自然語言處理的各箇領域,如拼寫校正和機器翻譯.
목전,일사주류적판별학습산법지능우화광활가도적손실함수,단재자연어언처리(natural language processing,간칭NLP)중,흔다응용적직접평개표준(여자부전환착오수(character error rate,간칭CER))도시불가도적계제형함수.위해결차문제,연구료일충신제출적판별학습산법--최소화양본풍험(minimum sample risk,간칭MSR)산법.여기타판별훈련산법불동,MSR산법직접사용계제형함수작위기손실함수.수선,대MSR산법적시공복잡성작료분석화제고;동시,제출료개진적산법MSR-II,사득특정지간상관성적계산경가은정.차외,환통과대량영역괄응성건모실험래고찰MSR-II적로봉성.일문한자수입실험적평측결과표명:(1) MSR/MSR-II현저우우전통삼원모형,사착오솔하강료20.9%;(2) MSR/MSR-II여령량류주류판별학습산법Boosting화Perceptron표현상당;(3) MSR-II불부재시공복잡도상우우MSR,특정선택적은정성야경고;(4) 영역괄응성건모적결과증명료MSR-II적량호로봉성.총지,MSR/MSR-II시일충비상유효적산법.유우기사용적시계제형적손실함수,인차가이엄범응용우자연어언처리적각개영역,여병사교정화궤기번역.