计算机应用
計算機應用
계산궤응용
COMPUTER APPLICATION
2004年
7期
132-134
,共3页
抽取多字词%页面解析%动态语料库
抽取多字詞%頁麵解析%動態語料庫
추취다자사%혈면해석%동태어료고
汉语自动分词是进行中文信息处理的基础.目前,困扰汉语自动分词的一个主要难题就是新词自动识别,尤其是非专名新词的自动识别.同时,新词自动识别对于汉语词典的编纂也有着极为重要的意义.文中提出了一种新的新词自动识别的方法.这个方法用到了互信息和log-likelihoodratio两个参数的改进形式.主要分三个阶段完成:先从网络上下载丰富的语料,构建语料库;然后采用统计的方法进行多字词识别;最后与已有的词表进行对照,判定新词.
漢語自動分詞是進行中文信息處理的基礎.目前,睏擾漢語自動分詞的一箇主要難題就是新詞自動識彆,尤其是非專名新詞的自動識彆.同時,新詞自動識彆對于漢語詞典的編纂也有著極為重要的意義.文中提齣瞭一種新的新詞自動識彆的方法.這箇方法用到瞭互信息和log-likelihoodratio兩箇參數的改進形式.主要分三箇階段完成:先從網絡上下載豐富的語料,構建語料庫;然後採用統計的方法進行多字詞識彆;最後與已有的詞錶進行對照,判定新詞.
한어자동분사시진행중문신식처리적기출.목전,곤우한어자동분사적일개주요난제취시신사자동식별,우기시비전명신사적자동식별.동시,신사자동식별대우한어사전적편찬야유착겁위중요적의의.문중제출료일충신적신사자동식별적방법.저개방법용도료호신식화log-likelihoodratio량개삼수적개진형식.주요분삼개계단완성:선종망락상하재봉부적어료,구건어료고;연후채용통계적방법진행다자사식별;최후여이유적사표진행대조,판정신사.