小型微型计算机系统
小型微型計算機繫統
소형미형계산궤계통
MINI-MICRO SYSTEMS
2013年
12期
2758-2763
,共6页
罗远胜%王明文%勒中坚%张华伟
囉遠勝%王明文%勒中堅%張華偉
라원성%왕명문%륵중견%장화위
跨语言信息检索%双语平行文档%主题模型%双语偏最小二乘主题相关模型
跨語言信息檢索%雙語平行文檔%主題模型%雙語偏最小二乘主題相關模型
과어언신식검색%쌍어평행문당%주제모형%쌍어편최소이승주제상관모형
cross-lingual information retrieval%bilingual parallel document%topic model%bilingual partial least squares topic correlation model
如何通过双语平行语料库提取语言之间的语义对信息,对改善跨语言信息检索的性能有着十分重要的意义.双语平行文档拥有相同的主题,这些双语主题在具体模型上可体现为语义相关.本文首先将双语平行文档看作同一语义内容的两种语言表示,从双语平行语料库构造每种语言的潜在语义空间,从而提出一种新的双语主题模型,即双语偏最小二乘主题相关模型.新模型克服了跨语言潜在语义索引模型没有充分考虑双语语义联系的不足.在中英双语新闻语料集上实验结果显示,新模型的文档配对搜索和伪查询跨语言检索性能明显优于跨语言潜在语义索引模型;在使用Google翻译得到的TREC-9双语平行语料库上,新模型也获得了较好的检索性能.
如何通過雙語平行語料庫提取語言之間的語義對信息,對改善跨語言信息檢索的性能有著十分重要的意義.雙語平行文檔擁有相同的主題,這些雙語主題在具體模型上可體現為語義相關.本文首先將雙語平行文檔看作同一語義內容的兩種語言錶示,從雙語平行語料庫構造每種語言的潛在語義空間,從而提齣一種新的雙語主題模型,即雙語偏最小二乘主題相關模型.新模型剋服瞭跨語言潛在語義索引模型沒有充分攷慮雙語語義聯繫的不足.在中英雙語新聞語料集上實驗結果顯示,新模型的文檔配對搜索和偽查詢跨語言檢索性能明顯優于跨語言潛在語義索引模型;在使用Google翻譯得到的TREC-9雙語平行語料庫上,新模型也穫得瞭較好的檢索性能.
여하통과쌍어평행어료고제취어언지간적어의대신식,대개선과어언신식검색적성능유착십분중요적의의.쌍어평행문당옹유상동적주제,저사쌍어주제재구체모형상가체현위어의상관.본문수선장쌍어평행문당간작동일어의내용적량충어언표시,종쌍어평행어료고구조매충어언적잠재어의공간,종이제출일충신적쌍어주제모형,즉쌍어편최소이승주제상관모형.신모형극복료과어언잠재어의색인모형몰유충분고필쌍어어의련계적불족.재중영쌍어신문어료집상실험결과현시,신모형적문당배대수색화위사순과어언검색성능명현우우과어언잠재어의색인모형;재사용Google번역득도적TREC-9쌍어평행어료고상,신모형야획득료교호적검색성능.