硅谷
硅穀
규곡
SILICON VALLEY
2012年
21期
151-154
,共4页
中文分词%基于词典的分词%后缀数组%散列表
中文分詞%基于詞典的分詞%後綴數組%散列錶
중문분사%기우사전적분사%후철수조%산렬표
目前中文分词成熟的方法主要有基于字符串匹配和基于统计的分词方法,这两种方法各有优缺点,为达到更好的分词效果,提出一种词典与后缀数组相结合的中文分词算法.其基本思想是首先利用后缀数组快速准确地抽取文档中的中、高频词,同时利用词典进行其他词汇的切分.另外,我们对词典的存储结构进行改进,提高匹配速度.实验证明本算法能够有效的提高分全率和准确率.
目前中文分詞成熟的方法主要有基于字符串匹配和基于統計的分詞方法,這兩種方法各有優缺點,為達到更好的分詞效果,提齣一種詞典與後綴數組相結閤的中文分詞算法.其基本思想是首先利用後綴數組快速準確地抽取文檔中的中、高頻詞,同時利用詞典進行其他詞彙的切分.另外,我們對詞典的存儲結構進行改進,提高匹配速度.實驗證明本算法能夠有效的提高分全率和準確率.
목전중문분사성숙적방법주요유기우자부천필배화기우통계적분사방법,저량충방법각유우결점,위체도경호적분사효과,제출일충사전여후철수조상결합적중문분사산법.기기본사상시수선이용후철수조쾌속준학지추취문당중적중、고빈사,동시이용사전진행기타사회적절분.령외,아문대사전적존저결구진행개진,제고필배속도.실험증명본산법능구유효적제고분전솔화준학솔.