计算机研究与发展
計算機研究與髮展
계산궤연구여발전
JOURNAL OF COMPUTER RESEARCH AND DEVELOPMENT
2010年
5期
962-968
,共7页
中文分词%条件随机场%双层条件随机场%子词%子词过滤
中文分詞%條件隨機場%雙層條件隨機場%子詞%子詞過濾
중문분사%조건수궤장%쌍층조건수궤장%자사%자사과려
提出了基于子词的双层CRFs(conditional random fields)中文分词方法,旨在解决中文分词中切分歧义与未登录词的问题.该方法是建立在基于子词的序列标注模型上.方法第1层利用基于字CRFs模型来识别待测语料中的子词,这样做是为了减少子词的跨越标记错误和增加子词识别的精确率;第2层利用CRFs模型学习基于子词的序列标注,对第1层的输出进行测试,进而得到分词结果.在2006年SIGHAN Bakeoff的中文简体语料上进行了测试,包括UPUC和MSRA语料,分别在F值上达到了93.3%和96.1%的精度.实验表明,基于子词的双层CRFs模型能够更加有效地利用子词来提高中文分词的精度.
提齣瞭基于子詞的雙層CRFs(conditional random fields)中文分詞方法,旨在解決中文分詞中切分歧義與未登錄詞的問題.該方法是建立在基于子詞的序列標註模型上.方法第1層利用基于字CRFs模型來識彆待測語料中的子詞,這樣做是為瞭減少子詞的跨越標記錯誤和增加子詞識彆的精確率;第2層利用CRFs模型學習基于子詞的序列標註,對第1層的輸齣進行測試,進而得到分詞結果.在2006年SIGHAN Bakeoff的中文簡體語料上進行瞭測試,包括UPUC和MSRA語料,分彆在F值上達到瞭93.3%和96.1%的精度.實驗錶明,基于子詞的雙層CRFs模型能夠更加有效地利用子詞來提高中文分詞的精度.
제출료기우자사적쌍층CRFs(conditional random fields)중문분사방법,지재해결중문분사중절분기의여미등록사적문제.해방법시건립재기우자사적서렬표주모형상.방법제1층이용기우자CRFs모형래식별대측어료중적자사,저양주시위료감소자사적과월표기착오화증가자사식별적정학솔;제2층이용CRFs모형학습기우자사적서렬표주,대제1층적수출진행측시,진이득도분사결과.재2006년SIGHAN Bakeoff적중문간체어료상진행료측시,포괄UPUC화MSRA어료,분별재F치상체도료93.3%화96.1%적정도.실험표명,기우자사적쌍층CRFs모형능구경가유효지이용자사래제고중문분사적정도.