计算机研究与发展
計算機研究與髮展
계산궤연구여발전
JOURNAL OF COMPUTER RESEARCH AND DEVELOPMENT
2014年
10期
2216-2224
,共9页
薛源海%俞晓明%刘悦%关峰%程学旗
薛源海%俞曉明%劉悅%關峰%程學旂
설원해%유효명%류열%관봉%정학기
带权邻近度%度量方法%BM25%查询词重要性%信息检索
帶權鄰近度%度量方法%BM25%查詢詞重要性%信息檢索
대권린근도%도량방법%BM25%사순사중요성%신식검색
weighted proximity%measure method%BM25%term significance%information retrieval
信息检索需要解决的主要问题是为信息索取者提供相关、准确甚至完整的信息.大量的传统检索模型基于词袋假设进行建模,不考虑查询词之间的相互联系.词项邻近度信息在现有的研究中常被用于提升经典信息检索模型的检索效果,但大部分工作没有考虑查询中各个词重要性的差异.在现代信息检索的查询请求中,查询词之间不仅不完全相互独立,而且分别具有不同的重要程度.因此,在计算邻近度信息时对查询词的重要性进行区分,将有助于提高检索效果.带权邻近度BM25模型(WP-BM25)使用待检索数据集的背景信息对查询词的重要性进行区分,并将带权邻近度度量方法整合到BM25模型中.在TREC评测的3个标准数据集FR88-89,WT2G和WT10G上的一系列对比实验表明,该模型具有较好的鲁棒性,且能够使检索效果得到显著提升.
信息檢索需要解決的主要問題是為信息索取者提供相關、準確甚至完整的信息.大量的傳統檢索模型基于詞袋假設進行建模,不攷慮查詢詞之間的相互聯繫.詞項鄰近度信息在現有的研究中常被用于提升經典信息檢索模型的檢索效果,但大部分工作沒有攷慮查詢中各箇詞重要性的差異.在現代信息檢索的查詢請求中,查詢詞之間不僅不完全相互獨立,而且分彆具有不同的重要程度.因此,在計算鄰近度信息時對查詢詞的重要性進行區分,將有助于提高檢索效果.帶權鄰近度BM25模型(WP-BM25)使用待檢索數據集的揹景信息對查詢詞的重要性進行區分,併將帶權鄰近度度量方法整閤到BM25模型中.在TREC評測的3箇標準數據集FR88-89,WT2G和WT10G上的一繫列對比實驗錶明,該模型具有較好的魯棒性,且能夠使檢索效果得到顯著提升.
신식검색수요해결적주요문제시위신식색취자제공상관、준학심지완정적신식.대량적전통검색모형기우사대가설진행건모,불고필사순사지간적상호련계.사항린근도신식재현유적연구중상피용우제승경전신식검색모형적검색효과,단대부분공작몰유고필사순중각개사중요성적차이.재현대신식검색적사순청구중,사순사지간불부불완전상호독립,이차분별구유불동적중요정도.인차,재계산린근도신식시대사순사적중요성진행구분,장유조우제고검색효과.대권린근도BM25모형(WP-BM25)사용대검색수거집적배경신식대사순사적중요성진행구분,병장대권린근도도량방법정합도BM25모형중.재TREC평측적3개표준수거집FR88-89,WT2G화WT10G상적일계렬대비실험표명,해모형구유교호적로봉성,차능구사검색효과득도현저제승.