计算机技术与发展
計算機技術與髮展
계산궤기술여발전
COMPUTER TECHNOLOGY AND DEVELOPMENT
2011年
11期
49-52
,共4页
自动分词%无词典分词%后缀数组
自動分詞%無詞典分詞%後綴數組
자동분사%무사전분사%후철수조
文中改进了基于后缀数组的无词典分词算法.原算法通过对输入字符集建立后缀数组并按字典序进行排列来筛选汉字结合模式形成候选词集,并通过置信度的比较来筛选候选词集以获得分词集.文中改进了其计算候选词出现频率的方法并且大大减少了筛选候选词集时两两判断候选词是否具有父子关系的次数.试验表明,改进的算法能够在没有词典的情况下更快速构建候选词集和筛选候选词集.适用于对词条频度敏感,对计算速度要求较高的中文信息处理.
文中改進瞭基于後綴數組的無詞典分詞算法.原算法通過對輸入字符集建立後綴數組併按字典序進行排列來篩選漢字結閤模式形成候選詞集,併通過置信度的比較來篩選候選詞集以穫得分詞集.文中改進瞭其計算候選詞齣現頻率的方法併且大大減少瞭篩選候選詞集時兩兩判斷候選詞是否具有父子關繫的次數.試驗錶明,改進的算法能夠在沒有詞典的情況下更快速構建候選詞集和篩選候選詞集.適用于對詞條頻度敏感,對計算速度要求較高的中文信息處理.
문중개진료기우후철수조적무사전분사산법.원산법통과대수입자부집건립후철수조병안자전서진행배렬래사선한자결합모식형성후선사집,병통과치신도적비교래사선후선사집이획득분사집.문중개진료기계산후선사출현빈솔적방법병차대대감소료사선후선사집시량량판단후선사시부구유부자관계적차수.시험표명,개진적산법능구재몰유사전적정황하경쾌속구건후선사집화사선후선사집.괄용우대사조빈도민감,대계산속도요구교고적중문신식처리.