电脑知识与技术
電腦知識與技術
전뇌지식여기술
COMPUTER KNOWLEDGE AND TECHNOLOGY
2009年
4期
1014-1015,1017
,共3页
维吾尔文%信息熵%多余度%语料库%统计
維吾爾文%信息熵%多餘度%語料庫%統計
유오이문%신식적%다여도%어료고%통계
信息熵是信息论中用于度量随机变量的不确定性.自然语言信息熵的估计是自然语言信息处理中非常重要而且基本的问题.在试验中,使用统计的方法对250多万词的维吾尔语语料库文本进行统计,初步计算了维吾尔文的信息熵和多余度.所求得的信息熵和多余度分别为4.387比特和13%,相当接近了其它拼音文字的信息熵和多余度.
信息熵是信息論中用于度量隨機變量的不確定性.自然語言信息熵的估計是自然語言信息處理中非常重要而且基本的問題.在試驗中,使用統計的方法對250多萬詞的維吾爾語語料庫文本進行統計,初步計算瞭維吾爾文的信息熵和多餘度.所求得的信息熵和多餘度分彆為4.387比特和13%,相噹接近瞭其它拼音文字的信息熵和多餘度.
신식적시신식론중용우도량수궤변량적불학정성.자연어언신식적적고계시자연어언신식처리중비상중요이차기본적문제.재시험중,사용통계적방법대250다만사적유오이어어료고문본진행통계,초보계산료유오이문적신식적화다여도.소구득적신식적화다여도분별위4.387비특화13%,상당접근료기타병음문자적신식적화다여도.