中文信息学报
中文信息學報
중문신식학보
JOURNAL OF CHINESE INFORMAITON PROCESSING
2012年
6期
109-115
,共7页
倪耀群%曹鹏%许洪波%唐慧丰%程学旗
倪耀群%曹鵬%許洪波%唐慧豐%程學旂
예요군%조붕%허홍파%당혜봉%정학기
老维文%语种识别%最大公共子串
老維文%語種識彆%最大公共子串
로유문%어충식별%최대공공자천
将维吾尔文从阿拉伯文、哈萨克文、柯尔克孜文等以阿拉伯字母为基础书写的类似文字中识别出来,是维文信息处理的基础.作者对维吾尔字符的编码优化后使用N元语法模型实现了维吾尔文的快速语种判别,准确率超过98%.经过错误分析,发现错误判别的文本主要集中在论坛和微博客中,这些文本有效字符数太少,语言特征不充分.最后作者计算了四种语言真实网络文本中的所有公共子串,并对文种判别所需要的最短字符串长度进行了分析.
將維吾爾文從阿拉伯文、哈薩剋文、柯爾剋孜文等以阿拉伯字母為基礎書寫的類似文字中識彆齣來,是維文信息處理的基礎.作者對維吾爾字符的編碼優化後使用N元語法模型實現瞭維吾爾文的快速語種判彆,準確率超過98%.經過錯誤分析,髮現錯誤判彆的文本主要集中在論罈和微博客中,這些文本有效字符數太少,語言特徵不充分.最後作者計算瞭四種語言真實網絡文本中的所有公共子串,併對文種判彆所需要的最短字符串長度進行瞭分析.
장유오이문종아랍백문、합살극문、가이극자문등이아랍백자모위기출서사적유사문자중식별출래,시유문신식처리적기출.작자대유오이자부적편마우화후사용N원어법모형실현료유오이문적쾌속어충판별,준학솔초과98%.경과착오분석,발현착오판별적문본주요집중재론단화미박객중,저사문본유효자부수태소,어언특정불충분.최후작자계산료사충어언진실망락문본중적소유공공자천,병대문충판별소수요적최단자부천장도진행료분석.