微处理机
微處理機
미처리궤
MICROPROCESSORS
2008年
1期
107-110
,共4页
分词%互信息%t-测试差
分詞%互信息%t-測試差
분사%호신식%t-측시차
汉语自动分词是进行中文信息处理的基础.传统分词需要大规模加工过的熟语料库做为测试集来训练模型以获取参数,代价高昂.在互信息和t-测试差的基础上,通过将两者进行线性和非线性组合,提出了一个新的统计量mt.该统计量所需的所有统计数据直接从待切分的生语料中获得,无须大规模加工过的熟语料和人工干预,大大降低了分词成本.测试结果显示,该统计量关于字间位置的分词正确率为80.14%,比单独使用互信息和t-测试差分别提高了6.83%和7.27%.
漢語自動分詞是進行中文信息處理的基礎.傳統分詞需要大規模加工過的熟語料庫做為測試集來訓練模型以穫取參數,代價高昂.在互信息和t-測試差的基礎上,通過將兩者進行線性和非線性組閤,提齣瞭一箇新的統計量mt.該統計量所需的所有統計數據直接從待切分的生語料中穫得,無鬚大規模加工過的熟語料和人工榦預,大大降低瞭分詞成本.測試結果顯示,該統計量關于字間位置的分詞正確率為80.14%,比單獨使用互信息和t-測試差分彆提高瞭6.83%和7.27%.
한어자동분사시진행중문신식처리적기출.전통분사수요대규모가공과적숙어료고주위측시집래훈련모형이획취삼수,대개고앙.재호신식화t-측시차적기출상,통과장량자진행선성화비선성조합,제출료일개신적통계량mt.해통계량소수적소유통계수거직접종대절분적생어료중획득,무수대규모가공과적숙어료화인공간예,대대강저료분사성본.측시결과현시,해통계량관우자간위치적분사정학솔위80.14%,비단독사용호신식화t-측시차분별제고료6.83%화7.27%.