中文信息学报
中文信息學報
중문신식학보
JOURNAL OF CHINESE INFORMAITON PROCESSING
2015年
2期
111-117
,共7页
买买提依明·哈斯木%吾守尔·斯拉木%维尼拉·木沙江%努尔麦麦提·尤鲁瓦斯
買買提依明·哈斯木%吾守爾·斯拉木%維尼拉·木沙江%努爾麥麥提·尤魯瓦斯
매매제의명·합사목%오수이·사랍목%유니랍·목사강%노이맥맥제·우로와사
文种识别%专用字符%复合字符%维文%哈文%柯文%Unicode
文種識彆%專用字符%複閤字符%維文%哈文%柯文%Unicode
문충식별%전용자부%복합자부%유문%합문%가문%Unicode
language identification%unique characters%compound characters%Uyghur text%Kazak text%Kyrgyz text%Unicode
在Unicode编码方案中维、哈、柯文字符安排在阿拉伯字符区域,三种语言中共享字符比较多,跟阿拉伯字符区域混在一起,没有专用的语言ID.在信息检索和自然语言处理领域对维、哈、柯文的识别、处理带来不便.该文首先分析并总结了维、哈、柯文三种语言中的专用字符、复合字符、某些字符在某种语言中出现形势的独特性等特征,然后在此基础上设计了维、哈、柯文种识别算法.实验结果表明该文提出的文种识别算法的正确率在文本多于70词时达到96.67%以上.
在Unicode編碼方案中維、哈、柯文字符安排在阿拉伯字符區域,三種語言中共享字符比較多,跟阿拉伯字符區域混在一起,沒有專用的語言ID.在信息檢索和自然語言處理領域對維、哈、柯文的識彆、處理帶來不便.該文首先分析併總結瞭維、哈、柯文三種語言中的專用字符、複閤字符、某些字符在某種語言中齣現形勢的獨特性等特徵,然後在此基礎上設計瞭維、哈、柯文種識彆算法.實驗結果錶明該文提齣的文種識彆算法的正確率在文本多于70詞時達到96.67%以上.
재Unicode편마방안중유、합、가문자부안배재아랍백자부구역,삼충어언중공향자부비교다,근아랍백자부구역혼재일기,몰유전용적어언ID.재신식검색화자연어언처리영역대유、합、가문적식별、처리대래불편.해문수선분석병총결료유、합、가문삼충어언중적전용자부、복합자부、모사자부재모충어언중출현형세적독특성등특정,연후재차기출상설계료유、합、가문충식별산법.실험결과표명해문제출적문충식별산법적정학솔재문본다우70사시체도96.67%이상.