中文信息学报
中文信息學報
중문신식학보
Journal of Chinese Information Processing
2015年
4期
144-150
,共7页
中文字符%同形异码%Unicode
中文字符%同形異碼%Unicode
중문자부%동형이마%Unicode
Chinese characters%duplicate encoding%unicode
同一个字符拥有不同的计算机内部代码,这意味着有两个或两个以上字形在人的眼中是同一个字,而计算机却认为是不同的字.这种"人机看法不一致"会给语言信息处理带来混乱,导致信息检索不全,统计数字不准,字词分类排序不一致等情况.该文结合Unicode实例专题讨论当前计算机上存在的中文同形异码字问题,包括(a)私人造字公有化所形成的同形异码字,(b)兼容编码所形成的同形异码字,(c)建立专门的笔画部首表而形成的同形异码字,(d)半宽和全宽字形分别编码而造成的同形异码字等,并探讨解决问题的方法.
同一箇字符擁有不同的計算機內部代碼,這意味著有兩箇或兩箇以上字形在人的眼中是同一箇字,而計算機卻認為是不同的字.這種"人機看法不一緻"會給語言信息處理帶來混亂,導緻信息檢索不全,統計數字不準,字詞分類排序不一緻等情況.該文結閤Unicode實例專題討論噹前計算機上存在的中文同形異碼字問題,包括(a)私人造字公有化所形成的同形異碼字,(b)兼容編碼所形成的同形異碼字,(c)建立專門的筆畫部首錶而形成的同形異碼字,(d)半寬和全寬字形分彆編碼而造成的同形異碼字等,併探討解決問題的方法.
동일개자부옹유불동적계산궤내부대마,저의미착유량개혹량개이상자형재인적안중시동일개자,이계산궤각인위시불동적자.저충"인궤간법불일치"회급어언신식처리대래혼란,도치신식검색불전,통계수자불준,자사분류배서불일치등정황.해문결합Unicode실례전제토론당전계산궤상존재적중문동형이마자문제,포괄(a)사인조자공유화소형성적동형이마자,(b)겸용편마소형성적동형이마자,(c)건립전문적필화부수표이형성적동형이마자,(d)반관화전관자형분별편마이조성적동형이마자등,병탐토해결문제적방법.