电脑知识与技术
電腦知識與技術
전뇌지식여기술
COMPUTER KNOWLEDGE AND TECHNOLOGY
2015年
11期
23-25
,共3页
再吐娜木·阿巴白克力%侯存义%米尔阿迪力江·麦麦提%张立新
再吐娜木·阿巴白剋力%侯存義%米爾阿迪力江·麥麥提%張立新
재토나목·아파백극력%후존의%미이아적력강·맥맥제%장립신
多语种%自然语言处理%.NET%数据抓取%语言特征%语料库
多語種%自然語言處理%.NET%數據抓取%語言特徵%語料庫
다어충%자연어언처리%.NET%수거조취%어언특정%어료고
multilingual%NLP%.NET%data capture%language feature%Corpus
主要是为了给维吾尔语、哈萨克语及柯尔克孜语在自然语言处理、语音识别、语音合成、机器翻译、信息检索、维吾尔语智能信息监控以及维吾尔语舆情分析等研究领域提供语料作为目的。在软件的设计和实现过程中参考维吾尔语、哈萨克语和柯尔克孜语的语法规则以及语言特征,同时引入此三种语言的国际编码,除此根据该网页的特征来分析网页的结构进行判断文本而研发了从网上抓取维哈柯多语种纯文本的数据采集器。最后实现了为少数民族自然语言处理研究搭建语料库准备大规模语料。
主要是為瞭給維吾爾語、哈薩剋語及柯爾剋孜語在自然語言處理、語音識彆、語音閤成、機器翻譯、信息檢索、維吾爾語智能信息鑑控以及維吾爾語輿情分析等研究領域提供語料作為目的。在軟件的設計和實現過程中參攷維吾爾語、哈薩剋語和柯爾剋孜語的語法規則以及語言特徵,同時引入此三種語言的國際編碼,除此根據該網頁的特徵來分析網頁的結構進行判斷文本而研髮瞭從網上抓取維哈柯多語種純文本的數據採集器。最後實現瞭為少數民族自然語言處理研究搭建語料庫準備大規模語料。
주요시위료급유오이어、합살극어급가이극자어재자연어언처리、어음식별、어음합성、궤기번역、신식검색、유오이어지능신식감공이급유오이어여정분석등연구영역제공어료작위목적。재연건적설계화실현과정중삼고유오이어、합살극어화가이극자어적어법규칙이급어언특정,동시인입차삼충어언적국제편마,제차근거해망혈적특정래분석망혈적결구진행판단문본이연발료종망상조취유합가다어충순문본적수거채집기。최후실현료위소수민족자연어언처리연구탑건어료고준비대규모어료。
Mainly as a purpose of in order to provide data for Uyghur Kazak Kirghiz languages in some research fields such as NLP, Speech recognition, Speech synthesis, Machine translation, Information retrieval, Uyghur Intelligent Monitoring as well as the Uyghur Public Opinion Analysis. In the process of design and implementation of software, referred to the syntax rules of Uyghur Ka?zak Kirghiz languages. Introducing these three languages International coding, In addition to according to current webpage ’s fea?tures to analyze structure of webpage and judging the text to development data collector Uyghur Kazak Kirghiz multilingual pure text from web. Finally achieved for minority NLP research to build corpora prepared a large corpus.