计算机学报
計算機學報
계산궤학보
CHINESE JOURNAL OF COMPUTERS
2004年
6期
736-742
,共7页
汉语自动分词%无指导学习%汉字Bigram%互信息与t-测试的组合
漢語自動分詞%無指導學習%漢字Bigram%互信息與t-測試的組閤
한어자동분사%무지도학습%한자Bigram%호신식여t-측시적조합
探讨了基于无指导学习策略和无词表条件下的汉语自动分词方法,以期对研制开放环境下健壮的分词系统有所裨益.全部分词知识源自从生语料库中自动获得的汉字Bigram.在字间互信息和t-测试差的基础上,提出了一种将两者线性叠加的新的统计量md,并引入了峰和谷的概念,进而设计了相应的分词算法.大规模开放测试结果显示,该算法关于字间位置的分词正确率为85.88%,较单独使用互信息或t-测试差分别提高了2.47%和5.66%.
探討瞭基于無指導學習策略和無詞錶條件下的漢語自動分詞方法,以期對研製開放環境下健壯的分詞繫統有所裨益.全部分詞知識源自從生語料庫中自動穫得的漢字Bigram.在字間互信息和t-測試差的基礎上,提齣瞭一種將兩者線性疊加的新的統計量md,併引入瞭峰和穀的概唸,進而設計瞭相應的分詞算法.大規模開放測試結果顯示,該算法關于字間位置的分詞正確率為85.88%,較單獨使用互信息或t-測試差分彆提高瞭2.47%和5.66%.
탐토료기우무지도학습책략화무사표조건하적한어자동분사방법,이기대연제개방배경하건장적분사계통유소비익.전부분사지식원자종생어료고중자동획득적한자Bigram.재자간호신식화t-측시차적기출상,제출료일충장량자선성첩가적신적통계량md,병인입료봉화곡적개념,진이설계료상응적분사산법.대규모개방측시결과현시,해산법관우자간위치적분사정학솔위85.88%,교단독사용호신식혹t-측시차분별제고료2.47%화5.66%.