情报杂志
情報雜誌
정보잡지
JOURNAL OF INFORMATION
2008年
11期
62-64,68
,共4页
术语对抽取%正则表达式%Web挖掘
術語對抽取%正則錶達式%Web挖掘
술어대추취%정칙표체식%Web알굴
多语术语对的收集对于垮语言信息检索、机器翻译和语言学习等具有重要应用价值.但传统的手工方式或基于平行语料的术语收集方法均有各自的局限性.针对web上存在的大规模术语网页,基于Web挖掘技术,提出了一种采用正则表达式的术语对抽取方法.首先是获取网页源文件,接着依据已定义的正则表达式从中抽取出正确的术语对,并存储到本地术语库中.实验结果表明,该方法可实现66.7%的术语网页的抽取,并且对于可抽取网页,抽取出的术语对准确率接近100%.
多語術語對的收集對于垮語言信息檢索、機器翻譯和語言學習等具有重要應用價值.但傳統的手工方式或基于平行語料的術語收集方法均有各自的跼限性.針對web上存在的大規模術語網頁,基于Web挖掘技術,提齣瞭一種採用正則錶達式的術語對抽取方法.首先是穫取網頁源文件,接著依據已定義的正則錶達式從中抽取齣正確的術語對,併存儲到本地術語庫中.實驗結果錶明,該方法可實現66.7%的術語網頁的抽取,併且對于可抽取網頁,抽取齣的術語對準確率接近100%.
다어술어대적수집대우과어언신식검색、궤기번역화어언학습등구유중요응용개치.단전통적수공방식혹기우평행어료적술어수집방법균유각자적국한성.침대web상존재적대규모술어망혈,기우Web알굴기술,제출료일충채용정칙표체식적술어대추취방법.수선시획취망혈원문건,접착의거이정의적정칙표체식종중추취출정학적술어대,병존저도본지술어고중.실험결과표명,해방법가실현66.7%적술어망혈적추취,병차대우가추취망혈,추취출적술어대준학솔접근100%.