计算机工程
計算機工程
계산궤공정
COMPUTER ENGINEERING
2015年
4期
166-170
,共5页
塞麦提·麦麦提敏%侯敏%吐尔根·伊布拉音
塞麥提·麥麥提敏%侯敏%吐爾根·伊佈拉音
새맥제·맥맥제민%후민%토이근·이포랍음
平行语料库%句子对齐%锚点%基于长度的方法%基于词汇的方法
平行語料庫%句子對齊%錨點%基于長度的方法%基于詞彙的方法
평행어료고%구자대제%묘점%기우장도적방법%기우사회적방법
parallel corpora%sentence alignment%anchor%length-based method%lexical-based method
为提高汉维句子对齐方法的准确率,提出一种分段句子对齐方法。采用词汇信息和长度信息相结合的策略,识别出能作为锚点的一对句子(锚点句对),并将其作为分割标志对全文进行分段,在各片段内使用基于长度的方法实现全部句子的对齐,采用词汇、数字、标点符号和长度信息提高方法的领域移植性,使用分段方法避免复杂的计算过程,从而解决错误蔓延问题。实验结果表明,该方法的准确率达到95.2%,比基于长度的句子对齐方法提高了2.7%。
為提高漢維句子對齊方法的準確率,提齣一種分段句子對齊方法。採用詞彙信息和長度信息相結閤的策略,識彆齣能作為錨點的一對句子(錨點句對),併將其作為分割標誌對全文進行分段,在各片段內使用基于長度的方法實現全部句子的對齊,採用詞彙、數字、標點符號和長度信息提高方法的領域移植性,使用分段方法避免複雜的計算過程,從而解決錯誤蔓延問題。實驗結果錶明,該方法的準確率達到95.2%,比基于長度的句子對齊方法提高瞭2.7%。
위제고한유구자대제방법적준학솔,제출일충분단구자대제방법。채용사회신식화장도신식상결합적책략,식별출능작위묘점적일대구자(묘점구대),병장기작위분할표지대전문진행분단,재각편단내사용기우장도적방법실현전부구자적대제,채용사회、수자、표점부호화장도신식제고방법적영역이식성,사용분단방법피면복잡적계산과정,종이해결착오만연문제。실험결과표명,해방법적준학솔체도95.2%,비기우장도적구자대제방법제고료2.7%。
The step-by-step sentence alignment method is introduced in order to improve current Chinese-Uyghur sentence alignment method. Lexical and length information is used to generate some anchor sentences. Texts are divided into several sections by using anchor sentence as boundary,and then sentences in each section are aligned using length-based method. This method is effective in multi domain text because it uses words,numbers,and punctuation marks. It avoids complex computing and error spreading because of its “subsection” technique. Experimental results show that the precision of this method is 95. 2% in Chinese-Uyghur multi-domain texts, which is 2. 7% higher than length-based method.