计算机应用与软件
計算機應用與軟件
계산궤응용여연건
COMPUTER APPLICATIONS AND SOFTWARE
2011年
12期
19-21,70
,共4页
姜子进%吐尔根·依布拉音%赛依旦·阿不力米提%田生伟
薑子進%吐爾根·依佈拉音%賽依旦·阿不力米提%田生偉
강자진%토이근·의포랍음%새의단·아불력미제%전생위
双语平行语料库%双语平行句对%正文提取
雙語平行語料庫%雙語平行句對%正文提取
쌍어평행어료고%쌍어평행구대%정문제취
句子级的语料库是机器翻译的重要资源,但由于获取途径的限制,句子级的语料库不仅数量有限而且经常集中在特定领域,很难适应真实应用的需求.根据锚文本信息通过搜索引擎在网络上找到汉维双语平行网站,并下载网站中所有的双语平行网页.提取出有正文的网页,根据html特征,建立html树,提出一种将html树结构作为识别网页正文内容重要特征的网页分析方法,并根据正文内容信息相似性提取网页正文.对提取出的正文进行句子切分,分别创建句子级的汉、维语料库,为以后创建句子级的汉维双语平行语料库服务.
句子級的語料庫是機器翻譯的重要資源,但由于穫取途徑的限製,句子級的語料庫不僅數量有限而且經常集中在特定領域,很難適應真實應用的需求.根據錨文本信息通過搜索引擎在網絡上找到漢維雙語平行網站,併下載網站中所有的雙語平行網頁.提取齣有正文的網頁,根據html特徵,建立html樹,提齣一種將html樹結構作為識彆網頁正文內容重要特徵的網頁分析方法,併根據正文內容信息相似性提取網頁正文.對提取齣的正文進行句子切分,分彆創建句子級的漢、維語料庫,為以後創建句子級的漢維雙語平行語料庫服務.
구자급적어료고시궤기번역적중요자원,단유우획취도경적한제,구자급적어료고불부수량유한이차경상집중재특정영역,흔난괄응진실응용적수구.근거묘문본신식통과수색인경재망락상조도한유쌍어평행망참,병하재망참중소유적쌍어평행망혈.제취출유정문적망혈,근거html특정,건립html수,제출일충장html수결구작위식별망혈정문내용중요특정적망혈분석방법,병근거정문내용신식상사성제취망혈정문.대제취출적정문진행구자절분,분별창건구자급적한、유어료고,위이후창건구자급적한유쌍어평행어료고복무.