计算机学报
計算機學報
계산궤학보
CHINESE JOURNAL OF COMPUTERS
2014年
1期
229-237
,共9页
时间感知%微博搜索%语言模型%信息检索%社交网络
時間感知%微博搜索%語言模型%信息檢索%社交網絡
시간감지%미박수색%어언모형%신식검색%사교망락
time-aware%microblog search%language model%information retrieval%social networks
已有研究表明,时间是影响信息检索特别是微博检索的重要因素.现有的代表性工作是将时间信息作为文档先验融入统计语言检索模型,目前主要有跟查询无关和跟查询有关两种做法.这两种做法得到的模型均基于“时间越新文档越重要”这个简单假设.然而,对实际数据集进行分析发现,大多数微博查询的大部分相关文档并没有出现在最新时刻,因此上述假设并不成立.文中从这一点出发,定义这些相关文档集中出现的高峰点为热门时刻(Hot Time),并提出新假设“越靠近热门时刻,文档越重要”.基于该假设,文中提出了基于热门时刻的4个系列模型(HTLMs).在此基础上,将查询无关模型看作是文档的背景时间信息而将查询有关模型看作是文档的独立时间信息,由此引入平滑思想提出混合的时间模型(MTLM).基于TREC Microblog数据的实验结果表明,HTLM模型优于现有的工作,而混合模型项对于单一模型会有进一步的提高.
已有研究錶明,時間是影響信息檢索特彆是微博檢索的重要因素.現有的代錶性工作是將時間信息作為文檔先驗融入統計語言檢索模型,目前主要有跟查詢無關和跟查詢有關兩種做法.這兩種做法得到的模型均基于“時間越新文檔越重要”這箇簡單假設.然而,對實際數據集進行分析髮現,大多數微博查詢的大部分相關文檔併沒有齣現在最新時刻,因此上述假設併不成立.文中從這一點齣髮,定義這些相關文檔集中齣現的高峰點為熱門時刻(Hot Time),併提齣新假設“越靠近熱門時刻,文檔越重要”.基于該假設,文中提齣瞭基于熱門時刻的4箇繫列模型(HTLMs).在此基礎上,將查詢無關模型看作是文檔的揹景時間信息而將查詢有關模型看作是文檔的獨立時間信息,由此引入平滑思想提齣混閤的時間模型(MTLM).基于TREC Microblog數據的實驗結果錶明,HTLM模型優于現有的工作,而混閤模型項對于單一模型會有進一步的提高.
이유연구표명,시간시영향신식검색특별시미박검색적중요인소.현유적대표성공작시장시간신식작위문당선험융입통계어언검색모형,목전주요유근사순무관화근사순유관량충주법.저량충주법득도적모형균기우“시간월신문당월중요”저개간단가설.연이,대실제수거집진행분석발현,대다수미박사순적대부분상관문당병몰유출현재최신시각,인차상술가설병불성립.문중종저일점출발,정의저사상관문당집중출현적고봉점위열문시각(Hot Time),병제출신가설“월고근열문시각,문당월중요”.기우해가설,문중제출료기우열문시각적4개계렬모형(HTLMs).재차기출상,장사순무관모형간작시문당적배경시간신식이장사순유관모형간작시문당적독립시간신식,유차인입평활사상제출혼합적시간모형(MTLM).기우TREC Microblog수거적실험결과표명,HTLM모형우우현유적공작,이혼합모형항대우단일모형회유진일보적제고.