计算机科学
計算機科學
계산궤과학
COMPUTER SCIENCE
2014年
10期
276-282
,共7页
汉字%词%短语%语料库%互信息%频率
漢字%詞%短語%語料庫%互信息%頻率
한자%사%단어%어료고%호신식%빈솔
Chinese character%Word%Phrase%Corpus%Mutual information%Frequency
基于互信息的词典构建和自动分词是典型的基于统计的中文信息处理技术.通过计算大规模中文文本语料库的高频二字串、三字串、四字串的互信息发现:第一,高频词的互信息并不是很高,词和短语之间的互信息分布不存在明显界限;第二,高频无效汉字串的互信息与词和短语的互信息也没有明确界限,词、短语、无效汉字串互信息的夹杂分布,使得仅凭汉字串的互信息或频率很难高效地自动标注词、短语以及无效串.以上规律说明:单纯依赖对大规模真实文本语料库进行统计来实现高效的中文词典构建、自动分词处理等会面临极大挑战.
基于互信息的詞典構建和自動分詞是典型的基于統計的中文信息處理技術.通過計算大規模中文文本語料庫的高頻二字串、三字串、四字串的互信息髮現:第一,高頻詞的互信息併不是很高,詞和短語之間的互信息分佈不存在明顯界限;第二,高頻無效漢字串的互信息與詞和短語的互信息也沒有明確界限,詞、短語、無效漢字串互信息的夾雜分佈,使得僅憑漢字串的互信息或頻率很難高效地自動標註詞、短語以及無效串.以上規律說明:單純依賴對大規模真實文本語料庫進行統計來實現高效的中文詞典構建、自動分詞處理等會麵臨極大挑戰.
기우호신식적사전구건화자동분사시전형적기우통계적중문신식처리기술.통과계산대규모중문문본어료고적고빈이자천、삼자천、사자천적호신식발현:제일,고빈사적호신식병불시흔고,사화단어지간적호신식분포불존재명현계한;제이,고빈무효한자천적호신식여사화단어적호신식야몰유명학계한,사、단어、무효한자천호신식적협잡분포,사득부빙한자천적호신식혹빈솔흔난고효지자동표주사、단어이급무효천.이상규률설명:단순의뢰대대규모진실문본어료고진행통계래실현고효적중문사전구건、자동분사처리등회면림겁대도전.