数字通信
數字通信
수자통신
DIGIT L COMMLINIC TION
2013年
2期
1-5,23
,共6页
新词%互信息%信息熵%词频%垃圾串
新詞%互信息%信息熵%詞頻%垃圾串
신사%호신식%신식적%사빈%랄급천
汉语自动分词是进行中文信息处理的基础.目前,困扰汉语自动分词的一个主要难题就是新词自动识别,尤其是非专名新词的自动识别.同时,新词自动识别对于汉语词典的编纂也有着极为重要的意义.提出一种新的未登录词识别方法,该方法混合了互信息、信息熵及词频等3个评价指标评价新词,并在此基础上添加了垃圾串过滤机制,大幅度提高了新词识别准确率和召回率.
漢語自動分詞是進行中文信息處理的基礎.目前,睏擾漢語自動分詞的一箇主要難題就是新詞自動識彆,尤其是非專名新詞的自動識彆.同時,新詞自動識彆對于漢語詞典的編纂也有著極為重要的意義.提齣一種新的未登錄詞識彆方法,該方法混閤瞭互信息、信息熵及詞頻等3箇評價指標評價新詞,併在此基礎上添加瞭垃圾串過濾機製,大幅度提高瞭新詞識彆準確率和召迴率.
한어자동분사시진행중문신식처리적기출.목전,곤우한어자동분사적일개주요난제취시신사자동식별,우기시비전명신사적자동식별.동시,신사자동식별대우한어사전적편찬야유착겁위중요적의의.제출일충신적미등록사식별방법,해방법혼합료호신식、신식적급사빈등3개평개지표평개신사,병재차기출상첨가료랄급천과려궤제,대폭도제고료신사식별준학솔화소회솔.