情报学报
情報學報
정보학보
2013年
1期
86-96
,共11页
罗远胜%王明文%勒中坚%陆旭
囉遠勝%王明文%勒中堅%陸旭
라원성%왕명문%륵중견%륙욱
双语文本对应分析%双语潜在语义空间%偏最小二乘%跨语言文本分类
雙語文本對應分析%雙語潛在語義空間%偏最小二乘%跨語言文本分類
쌍어문본대응분석%쌍어잠재어의공간%편최소이승%과어언문본분류
双语文本对应分析在处理多语言文本数据、克服语言障碍等方面有着重要的作用,基于语料库技术的跨语言潜在语义索引方法没有充分考虑双语的语义相关性.本文将双语平行文档看作同一语义内容的两种语言表达,运用偏最小二乘方法构建双语文本的语义相关性,为每种语言建立单独的潜在语义空间,并在这两个空间上实现跨语言的分类任务.在香港政府网中英双语新闻的实验结果显示,本文方法构造的双语潜在语义空间上完成的跨语言和单语言文本分类性能接近或优于原始特征空间的单语言分类,并具有良好的稳健性.
雙語文本對應分析在處理多語言文本數據、剋服語言障礙等方麵有著重要的作用,基于語料庫技術的跨語言潛在語義索引方法沒有充分攷慮雙語的語義相關性.本文將雙語平行文檔看作同一語義內容的兩種語言錶達,運用偏最小二乘方法構建雙語文本的語義相關性,為每種語言建立單獨的潛在語義空間,併在這兩箇空間上實現跨語言的分類任務.在香港政府網中英雙語新聞的實驗結果顯示,本文方法構造的雙語潛在語義空間上完成的跨語言和單語言文本分類性能接近或優于原始特徵空間的單語言分類,併具有良好的穩健性.
쌍어문본대응분석재처리다어언문본수거、극복어언장애등방면유착중요적작용,기우어료고기술적과어언잠재어의색인방법몰유충분고필쌍어적어의상관성.본문장쌍어평행문당간작동일어의내용적량충어언표체,운용편최소이승방법구건쌍어문본적어의상관성,위매충어언건립단독적잠재어의공간,병재저량개공간상실현과어언적분류임무.재향항정부망중영쌍어신문적실험결과현시,본문방법구조적쌍어잠재어의공간상완성적과어언화단어언문본분류성능접근혹우우원시특정공간적단어언분류,병구유량호적은건성.