计算机科学
計算機科學
계산궤과학
COMPUTER SCIENCE
2014年
4期
263-268
,共6页
汉字%N-gram%语料库%排序
漢字%N-gram%語料庫%排序
한자%N-gram%어료고%배서
Chinese character%N-gram%Corpora%Sorting
中文文本统计软件Cici高效地实现了对超大规模中文文本语料N-gram串频次的统计与检索.通过统计不同规模中文语料库发现,当N等于6时,语料库中包含的不同N-gram汉字串数量最多.根据“句子”的平均长度和数量,可以准确估算语料库中包含的N-gram串数量.根据多数汉字串在语料库中出现频次低于10次的特点,提出对汉字串频次信息实现分段存储与排序,即对频次不超过10的汉字串独立存储,对频次高于10的汉字串进行分段排序与存储.对大规模中文文本应先进行分块统计,然后合并分块统计结果,建议分块规模约为20MB.
中文文本統計軟件Cici高效地實現瞭對超大規模中文文本語料N-gram串頻次的統計與檢索.通過統計不同規模中文語料庫髮現,噹N等于6時,語料庫中包含的不同N-gram漢字串數量最多.根據“句子”的平均長度和數量,可以準確估算語料庫中包含的N-gram串數量.根據多數漢字串在語料庫中齣現頻次低于10次的特點,提齣對漢字串頻次信息實現分段存儲與排序,即對頻次不超過10的漢字串獨立存儲,對頻次高于10的漢字串進行分段排序與存儲.對大規模中文文本應先進行分塊統計,然後閤併分塊統計結果,建議分塊規模約為20MB.
중문문본통계연건Cici고효지실현료대초대규모중문문본어료N-gram천빈차적통계여검색.통과통계불동규모중문어료고발현,당N등우6시,어료고중포함적불동N-gram한자천수량최다.근거“구자”적평균장도화수량,가이준학고산어료고중포함적N-gram천수량.근거다수한자천재어료고중출현빈차저우10차적특점,제출대한자천빈차신식실현분단존저여배서,즉대빈차불초과10적한자천독립존저,대빈차고우10적한자천진행분단배서여존저.대대규모중문문본응선진행분괴통계,연후합병분괴통계결과,건의분괴규모약위20MB.