CAJ | 학술논문

联邦搜索是从大规模深层网上获取信息的一种重要技术.给定一个用户查询,联邦搜索系统需要解决的一个主要问题是数据源选择问题,即从海量数据源中选出一组最有可能返回相关结果的数据源.现有的数据源选择算法大多基于数据源的样本文档集和查询之间的关键词匹配,通常无法很好地解决少量样本文档的信息缺失问题.针对这一问题,提出了基于隐含狄利克雷分布(LDA)主题模型进行数据源选择的方法.首先,使用LDA主题模型获得数据源和查询的主题概率分布;然后,通过比较两者主题概率分布的相近性来对所有数据源进行排序.通过将数据源和查询映射到低维的主题空间来解决高维词条空间稀疏性所带来的信息缺失问题.在TREC FedWeb 2013和2014 Track的测试集上分别进行了实验,并和其他参赛方法的结果进行了比较.在FedWeb 2013测试集上的实验结果显示比其他参赛方法的最好结果提高了24％;在FedWeb 2014测试集上的实验结果显示比传统的基于小文档和大文档的关键词匹配方法分别提高了22％和43％.另外,使用文档片段来代替文档还可以大幅提升系统的效率,更增加了此方法的实用性和可行性.
련방수색시종대규모심층망상획취신식적일충중요기술.급정일개용호사순,련방수색계통수요해결적일개주요문제시수거원선택문제,즉종해량수거원중선출일조최유가능반회상관결과적수거원.현유적수거원선택산법대다기우수거원적양본문당집화사순지간적관건사필배,통상무법흔호지해결소량양본문당적신식결실문제.침대저일문제,제출료기우은함적리극뢰분포(LDA)주제모형진행수거원선택적방법.수선,사용LDA주제모형획득수거원화사순적주제개솔분포;연후,통과비교량자주제개솔분포적상근성래대소유수거원진행배서.통과장수거원화사순영사도저유적주제공간래해결고유사조공간희소성소대래적신식결실문제.재TREC FedWeb 2013화2014 Track적측시집상분별진행료실험,병화기타삼새방법적결과진행료비교.재FedWeb 2013측시집상적실험결과현시비기타삼새방법적최호결과제고료24％;재FedWeb 2014측시집상적실험결과현시비전통적기우소문당화대문당적관건사필배방법분별제고료22％화43％.령외,사용문당편단래대체문당환가이대폭제승계통적효솔,경증가료차방법적실용성화가행성.