中文信息学报
中文信息學報
중문신식학보
JOURNAL OF CHINESE INFORMAITON PROCESSING
2007年
3期
8-19
,共12页
计算机应用%中文信息处理%中文分词%词语定义%未登录词识别%字标注分词方法
計算機應用%中文信息處理%中文分詞%詞語定義%未登錄詞識彆%字標註分詞方法
계산궤응용%중문신식처리%중문분사%사어정의%미등록사식별%자표주분사방법
过去的十年间,尤其是2003年国际中文分词评测活动Bakeoff开展以来,中文自动分词技术有了可喜的进步.其主要表现为:(1)通过"分词规范+词表+分词语料库"的方法,使中文词语在真实文本中得到了可计算的定义,这是实现计算机自动分词和可比评测的基础;(2)实践证明,基于手工规则的分词系统在评测中不敌基于统计学习的分词系统;(3)在Bakeoff数据上的评估结果表明,未登录词造成的分词精度失落至少比分词歧义大5倍以上;(4)实验证明,能够大幅度提高未登录词识别性能的字标注统计学习方法优于以往的基于词(或词典)的方法,并使自动分词系统的精度达到了新高.
過去的十年間,尤其是2003年國際中文分詞評測活動Bakeoff開展以來,中文自動分詞技術有瞭可喜的進步.其主要錶現為:(1)通過"分詞規範+詞錶+分詞語料庫"的方法,使中文詞語在真實文本中得到瞭可計算的定義,這是實現計算機自動分詞和可比評測的基礎;(2)實踐證明,基于手工規則的分詞繫統在評測中不敵基于統計學習的分詞繫統;(3)在Bakeoff數據上的評估結果錶明,未登錄詞造成的分詞精度失落至少比分詞歧義大5倍以上;(4)實驗證明,能夠大幅度提高未登錄詞識彆性能的字標註統計學習方法優于以往的基于詞(或詞典)的方法,併使自動分詞繫統的精度達到瞭新高.
과거적십년간,우기시2003년국제중문분사평측활동Bakeoff개전이래,중문자동분사기술유료가희적진보.기주요표현위:(1)통과"분사규범+사표+분사어료고"적방법,사중문사어재진실문본중득도료가계산적정의,저시실현계산궤자동분사화가비평측적기출;(2)실천증명,기우수공규칙적분사계통재평측중불활기우통계학습적분사계통;(3)재Bakeoff수거상적평고결과표명,미등록사조성적분사정도실락지소비분사기의대5배이상;(4)실험증명,능구대폭도제고미등록사식별성능적자표주통계학습방법우우이왕적기우사(혹사전)적방법,병사자동분사계통적정도체도료신고.