计算机工程与设计
計算機工程與設計
계산궤공정여설계
COMPUTER ENGINEERING AND DESIGN
2008年
24期
6370-6372
,共3页
刘汉兴%朱梅阶%刘财兴%林旭东
劉漢興%硃梅階%劉財興%林旭東
류한흥%주매계%류재흥%림욱동
中文分词%词图%二元语法%最大概率%最优路径
中文分詞%詞圖%二元語法%最大概率%最優路徑
중문분사%사도%이원어법%최대개솔%최우로경
中文分词的方法主要可分为基于规则和基于统计两大类:前者一般借助于词图的方法,将分词问题转化为最优路径问题,通常切分结果不惟一;后者利用统计模型对语料库进行统计,计算量较大,但准确率较高.对词图和N元语法进行了介绍,并结合两者实现了一种中文分词方法.该方法将词图中的最大概率路径作为中文句子分词的结果,其中涉及对语料库进行二元词频统计,设计了一个多级哈希结构的分词词典,实验数据表明该方法能有效地进行自动分词.
中文分詞的方法主要可分為基于規則和基于統計兩大類:前者一般藉助于詞圖的方法,將分詞問題轉化為最優路徑問題,通常切分結果不惟一;後者利用統計模型對語料庫進行統計,計算量較大,但準確率較高.對詞圖和N元語法進行瞭介紹,併結閤兩者實現瞭一種中文分詞方法.該方法將詞圖中的最大概率路徑作為中文句子分詞的結果,其中涉及對語料庫進行二元詞頻統計,設計瞭一箇多級哈希結構的分詞詞典,實驗數據錶明該方法能有效地進行自動分詞.
중문분사적방법주요가분위기우규칙화기우통계량대류:전자일반차조우사도적방법,장분사문제전화위최우로경문제,통상절분결과불유일;후자이용통계모형대어료고진행통계,계산량교대,단준학솔교고.대사도화N원어법진행료개소,병결합량자실현료일충중문분사방법.해방법장사도중적최대개솔로경작위중문구자분사적결과,기중섭급대어료고진행이원사빈통계,설계료일개다급합희결구적분사사전,실험수거표명해방법능유효지진행자동분사.