计算机科学
計算機科學
계산궤과학
COMPUTER SCIENCE
2015年
z1期
79-82
,共4页
少数民族语言文字%网站%网页%自动识别%采集
少數民族語言文字%網站%網頁%自動識彆%採集
소수민족어언문자%망참%망혈%자동식별%채집
Chinese minority language%Websites%Webpage%Automatic identification%Collection
分析了少数民族语言文字网站的特殊性,综合采用基于特殊字符、网页标签属性和N-gram的方法对传统蒙古文、藏文、阿拉伯字母体系的维吾尔文、哈萨克文和柯尔克孜文以及彝文、新傣文、朝鲜文、俄文和壮文等10种少数民族语言文字网站进行了自动识别研究.所提方法对10种少数民族语言文字网站的平均正确识别率达到95%以上,效果令人满意.
分析瞭少數民族語言文字網站的特殊性,綜閤採用基于特殊字符、網頁標籤屬性和N-gram的方法對傳統矇古文、藏文、阿拉伯字母體繫的維吾爾文、哈薩剋文和柯爾剋孜文以及彝文、新傣文、朝鮮文、俄文和壯文等10種少數民族語言文字網站進行瞭自動識彆研究.所提方法對10種少數民族語言文字網站的平均正確識彆率達到95%以上,效果令人滿意.
분석료소수민족어언문자망참적특수성,종합채용기우특수자부、망혈표첨속성화N-gram적방법대전통몽고문、장문、아랍백자모체계적유오이문、합살극문화가이극자문이급이문、신태문、조선문、아문화장문등10충소수민족어언문자망참진행료자동식별연구.소제방법대10충소수민족어언문자망참적평균정학식별솔체도95%이상,효과령인만의.