智能计算机与应用
智能計算機與應用
지능계산궤여응용
Computer Study
2012年
3期
72-75
,共4页
平行句对挖掘%句对评价%对照网页识别%平行网页判断
平行句對挖掘%句對評價%對照網頁識彆%平行網頁判斷
평행구대알굴%구대평개%대조망혈식별%평행망혈판단
从互联网上挖掘大量双语平行句对,可以快速有效地构建大规模双语资源,服务于统计机器翻译.从挖掘对象的不同,将网络数据源分成对照网页和平行网页两类,提出一种抽取双语句对的方法.首先,从上述两类网页中分别抽取平行文本段,对照网页文本段抽取的主要方法为页面过滤和模板匹配,而平行网页依赖于网页结构的相似,采用对应节点匹配方法;其次,采用GaleChurch算法进行句对齐,得到平行句对;最后统一进行后处理.实验结果表明,从对照网页获取平行句对的准确率达到93.3%,平行网页为93.5%.
從互聯網上挖掘大量雙語平行句對,可以快速有效地構建大規模雙語資源,服務于統計機器翻譯.從挖掘對象的不同,將網絡數據源分成對照網頁和平行網頁兩類,提齣一種抽取雙語句對的方法.首先,從上述兩類網頁中分彆抽取平行文本段,對照網頁文本段抽取的主要方法為頁麵過濾和模闆匹配,而平行網頁依賴于網頁結構的相似,採用對應節點匹配方法;其次,採用GaleChurch算法進行句對齊,得到平行句對;最後統一進行後處理.實驗結果錶明,從對照網頁穫取平行句對的準確率達到93.3%,平行網頁為93.5%.
종호련망상알굴대량쌍어평행구대,가이쾌속유효지구건대규모쌍어자원,복무우통계궤기번역.종알굴대상적불동,장망락수거원분성대조망혈화평행망혈량류,제출일충추취쌍어구대적방법.수선,종상술량류망혈중분별추취평행문본단,대조망혈문본단추취적주요방법위혈면과려화모판필배,이평행망혈의뢰우망혈결구적상사,채용대응절점필배방법;기차,채용GaleChurch산법진행구대제,득도평행구대;최후통일진행후처리.실험결과표명,종대조망혈획취평행구대적준학솔체도93.3%,평행망혈위93.5%.