计算机应用
計算機應用
계산궤응용
Journal of Computer Applications
2015年
9期
2553-2559,2595
,共8页
深层网%主题模型%隐含狄利克雷分布%数据源选择%联邦搜索
深層網%主題模型%隱含狄利剋雷分佈%數據源選擇%聯邦搜索
심층망%주제모형%은함적리극뢰분포%수거원선택%련방수색
deep Web%topic model%Latent Dirichlet Allocation (LDA)%data resource selection%federated search
联邦搜索是从大规模深层网上获取信息的一种重要技术.给定一个用户查询,联邦搜索系统需要解决的一个主要问题是数据源选择问题,即从海量数据源中选出一组最有可能返回相关结果的数据源.现有的数据源选择算法大多基于数据源的样本文档集和查询之间的关键词匹配,通常无法很好地解决少量样本文档的信息缺失问题.针对这一问题,提出了基于隐含狄利克雷分布(LDA)主题模型进行数据源选择的方法.首先,使用LDA主题模型获得数据源和查询的主题概率分布;然后,通过比较两者主题概率分布的相近性来对所有数据源进行排序.通过将数据源和查询映射到低维的主题空间来解决高维词条空间稀疏性所带来的信息缺失问题.在TREC FedWeb 2013和2014 Track的测试集上分别进行了实验,并和其他参赛方法的结果进行了比较.在FedWeb 2013测试集上的实验结果显示比其他参赛方法的最好结果提高了24%;在FedWeb 2014测试集上的实验结果显示比传统的基于小文档和大文档的关键词匹配方法分别提高了22%和43%.另外,使用文档片段来代替文档还可以大幅提升系统的效率,更增加了此方法的实用性和可行性.
聯邦搜索是從大規模深層網上穫取信息的一種重要技術.給定一箇用戶查詢,聯邦搜索繫統需要解決的一箇主要問題是數據源選擇問題,即從海量數據源中選齣一組最有可能返迴相關結果的數據源.現有的數據源選擇算法大多基于數據源的樣本文檔集和查詢之間的關鍵詞匹配,通常無法很好地解決少量樣本文檔的信息缺失問題.針對這一問題,提齣瞭基于隱含狄利剋雷分佈(LDA)主題模型進行數據源選擇的方法.首先,使用LDA主題模型穫得數據源和查詢的主題概率分佈;然後,通過比較兩者主題概率分佈的相近性來對所有數據源進行排序.通過將數據源和查詢映射到低維的主題空間來解決高維詞條空間稀疏性所帶來的信息缺失問題.在TREC FedWeb 2013和2014 Track的測試集上分彆進行瞭實驗,併和其他參賽方法的結果進行瞭比較.在FedWeb 2013測試集上的實驗結果顯示比其他參賽方法的最好結果提高瞭24%;在FedWeb 2014測試集上的實驗結果顯示比傳統的基于小文檔和大文檔的關鍵詞匹配方法分彆提高瞭22%和43%.另外,使用文檔片段來代替文檔還可以大幅提升繫統的效率,更增加瞭此方法的實用性和可行性.
련방수색시종대규모심층망상획취신식적일충중요기술.급정일개용호사순,련방수색계통수요해결적일개주요문제시수거원선택문제,즉종해량수거원중선출일조최유가능반회상관결과적수거원.현유적수거원선택산법대다기우수거원적양본문당집화사순지간적관건사필배,통상무법흔호지해결소량양본문당적신식결실문제.침대저일문제,제출료기우은함적리극뢰분포(LDA)주제모형진행수거원선택적방법.수선,사용LDA주제모형획득수거원화사순적주제개솔분포;연후,통과비교량자주제개솔분포적상근성래대소유수거원진행배서.통과장수거원화사순영사도저유적주제공간래해결고유사조공간희소성소대래적신식결실문제.재TREC FedWeb 2013화2014 Track적측시집상분별진행료실험,병화기타삼새방법적결과진행료비교.재FedWeb 2013측시집상적실험결과현시비기타삼새방법적최호결과제고료24%;재FedWeb 2014측시집상적실험결과현시비전통적기우소문당화대문당적관건사필배방법분별제고료22%화43%.령외,사용문당편단래대체문당환가이대폭제승계통적효솔,경증가료차방법적실용성화가행성.