CAJ | 학술논문

万方数据

中文信息学报 중문신식학보
JOURNAL OF CHINESE INFORMAITON PROCESSING
2015年 2期 111-117 ,共7页

买买提依明·哈斯木%吾守尔·斯拉木%维尼拉·木沙江%努尔麦麦提·尤鲁瓦斯

매매제의명·합사목%오수이·사랍목%유니랍·목사강%노이맥맥제·우로와사

文种识别%专用字符%复合字符%维文%哈文%柯文%Unicode 文種識彆%專用字符%複閤字符%維文%哈文%柯文%Unicode
문충식별%전용자부%복합자부%유문%합문%가문%Unicode
language identification%unique characters%compound characters%Uyghur text%Kazak text%Kyrgyz text%Unicode

在Unicode编码方案中维、哈、柯文字符安排在阿拉伯字符区域,三种语言中共享字符比较多,跟阿拉伯字符区域混在一起,没有专用的语言ID.在信息检索和自然语言处理领域对维、哈、柯文的识别、处理带来不便.该文首先分析并总结了维、哈、柯文三种语言中的专用字符、复合字符、某些字符在某种语言中出现形势的独特性等特征,然后在此基础上设计了维、哈、柯文种识别算法.实验结果表明该文提出的文种识别算法的正确率在文本多于70词时达到96.67％以上.
재Unicode편마방안중유、합、가문자부안배재아랍백자부구역,삼충어언중공향자부비교다,근아랍백자부구역혼재일기,몰유전용적어언ID.재신식검색화자연어언처리영역대유、합、가문적식별、처리대래불편.해문수선분석병총결료유、합、가문삼충어언중적전용자부、복합자부、모사자부재모충어언중출현형세적독특성등특정,연후재차기출상설계료유、합、가문충식별산법.실험결과표명해문제출적문충식별산법적정학솔재문본다우70사시체도96.67％이상.