计算机应用
計算機應用
계산궤응용
COMPUTER APPLICATION
2005年
9期
2025-2027
,共3页
中文分词%n元模型%上下文信息
中文分詞%n元模型%上下文信息
중문분사%n원모형%상하문신식
汉语分词在汉语文本处理过程中是一个特殊而重要的组成部分.传统的基于词典的分词算法存在很大的缺陷,无法对未登录词进行很好的处理.基于概率的算法只考虑了训练集语料的概率模型,对于不同领域的文本的处理不尽如人意.文章提出一种基于上下文信息提取的概率分词算法,能够将切分文本的上下文信息加入到分词概率模型中,以指导文本的切分.这种切分算法结合经典n元模型以及EM算法,在封闭和开放测试环境中分别取得了比较好的效果.
漢語分詞在漢語文本處理過程中是一箇特殊而重要的組成部分.傳統的基于詞典的分詞算法存在很大的缺陷,無法對未登錄詞進行很好的處理.基于概率的算法隻攷慮瞭訓練集語料的概率模型,對于不同領域的文本的處理不儘如人意.文章提齣一種基于上下文信息提取的概率分詞算法,能夠將切分文本的上下文信息加入到分詞概率模型中,以指導文本的切分.這種切分算法結閤經典n元模型以及EM算法,在封閉和開放測試環境中分彆取得瞭比較好的效果.
한어분사재한어문본처리과정중시일개특수이중요적조성부분.전통적기우사전적분사산법존재흔대적결함,무법대미등록사진행흔호적처리.기우개솔적산법지고필료훈련집어료적개솔모형,대우불동영역적문본적처리불진여인의.문장제출일충기우상하문신식제취적개솔분사산법,능구장절분문본적상하문신식가입도분사개솔모형중,이지도문본적절분.저충절분산법결합경전n원모형이급EM산법,재봉폐화개방측시배경중분별취득료비교호적효과.