中文信息学报
中文信息學報
중문신식학보
JOURNAL OF CHINESE INFORMAITON PROCESSING
2001年
5期
46-51
,共6页
词典%关联范数估计%右边缘扩展法%语言模型
詞典%關聯範數估計%右邊緣擴展法%語言模型
사전%관련범수고계%우변연확전법%어언모형
在建立统计语言模型时,往往会遇到词典的词汇量不够的问题.对于医学等专业领域的语料,这一问题尤为严重.针对这一问题,本文提出了一种新的基于统计的识别新词方法--右边缘扩展法.该方法对分词后的语料中产生的连续单字词进行关联范数估计,利用右边缘扩展的方法判断词的边界.在实验中,我们将右边缘扩展法与基于Witten-Bell back off方法的两两合并法相结合,循环地调整词典,优化语言模型.实验结果表明,该算法具有很高的识别正确率与检出率,可以有效地识别出语料中出现的新词汇,尤其是专业术语.
在建立統計語言模型時,往往會遇到詞典的詞彙量不夠的問題.對于醫學等專業領域的語料,這一問題尤為嚴重.針對這一問題,本文提齣瞭一種新的基于統計的識彆新詞方法--右邊緣擴展法.該方法對分詞後的語料中產生的連續單字詞進行關聯範數估計,利用右邊緣擴展的方法判斷詞的邊界.在實驗中,我們將右邊緣擴展法與基于Witten-Bell back off方法的兩兩閤併法相結閤,循環地調整詞典,優化語言模型.實驗結果錶明,該算法具有很高的識彆正確率與檢齣率,可以有效地識彆齣語料中齣現的新詞彙,尤其是專業術語.
재건립통계어언모형시,왕왕회우도사전적사회량불구적문제.대우의학등전업영역적어료,저일문제우위엄중.침대저일문제,본문제출료일충신적기우통계적식별신사방법--우변연확전법.해방법대분사후적어료중산생적련속단자사진행관련범수고계,이용우변연확전적방법판단사적변계.재실험중,아문장우변연확전법여기우Witten-Bell back off방법적량량합병법상결합,순배지조정사전,우화어언모형.실험결과표명,해산법구유흔고적식별정학솔여검출솔,가이유효지식별출어료중출현적신사회,우기시전업술어.