现代计算机(普及版)
現代計算機(普及版)
현대계산궤(보급판)
Modern Computer
2015年
8期
3-10
,共8页
Search Engine%Cache Replacement Strategy%Integrated Value%Multiple Query Attributes%Regression Analysis
缓存是搜索引擎中的重要技术,能显著节省查询处理计算量,缩短查询请求响应时间和提高系统吞吐量,得到学术界的关注和业界的广泛应用。当前搜索引擎缓存替换策略没有充分利用查询的多种访问特征信息,没有充分利用查询分布特性,传统替换策略用在搜索引擎中存在各种不足。针对以上问题研究查询请求的分布特征,分析现有缓存替换策略的不足,然后基于查询词访问特征提出代表查询词未来热度值的综合价值函数模型,然后通过对搜索引擎查询日志进行细粒度的统计分析,得到每个查询词每日各访问特性的详细记录,并基于多元回归分析方法计算得到查询词价值函数模型的未知参数,设计结合查询词当前动态访问特性和未来访问热度值的查询结果缓存管理策略,并通过真实查询记录测试不同替换区大小下本缓存系统的命中率,对比证明所提出的缓存替换策略相对于传统替换策略在命中率方面的显著提升。
緩存是搜索引擎中的重要技術,能顯著節省查詢處理計算量,縮短查詢請求響應時間和提高繫統吞吐量,得到學術界的關註和業界的廣汎應用。噹前搜索引擎緩存替換策略沒有充分利用查詢的多種訪問特徵信息,沒有充分利用查詢分佈特性,傳統替換策略用在搜索引擎中存在各種不足。針對以上問題研究查詢請求的分佈特徵,分析現有緩存替換策略的不足,然後基于查詢詞訪問特徵提齣代錶查詢詞未來熱度值的綜閤價值函數模型,然後通過對搜索引擎查詢日誌進行細粒度的統計分析,得到每箇查詢詞每日各訪問特性的詳細記錄,併基于多元迴歸分析方法計算得到查詢詞價值函數模型的未知參數,設計結閤查詢詞噹前動態訪問特性和未來訪問熱度值的查詢結果緩存管理策略,併通過真實查詢記錄測試不同替換區大小下本緩存繫統的命中率,對比證明所提齣的緩存替換策略相對于傳統替換策略在命中率方麵的顯著提升。
완존시수색인경중적중요기술,능현저절성사순처리계산량,축단사순청구향응시간화제고계통탄토량,득도학술계적관주화업계적엄범응용。당전수색인경완존체환책략몰유충분이용사순적다충방문특정신식,몰유충분이용사순분포특성,전통체환책략용재수색인경중존재각충불족。침대이상문제연구사순청구적분포특정,분석현유완존체환책략적불족,연후기우사순사방문특정제출대표사순사미래열도치적종합개치함수모형,연후통과대수색인경사순일지진행세립도적통계분석,득도매개사순사매일각방문특성적상세기록,병기우다원회귀분석방법계산득도사순사개치함수모형적미지삼수,설계결합사순사당전동태방문특성화미래방문열도치적사순결과완존관리책략,병통과진실사순기록측시불동체환구대소하본완존계통적명중솔,대비증명소제출적완존체환책략상대우전통체환책략재명중솔방면적현저제승。
Cache is a very important technology in search engine, which can significantly save query computation processing, improve query re-sponse and improve system throughput, which are widely applied by the academia and the industry. Current cache replacement policy does not take full advantage of search engine queries of multiple access feature information, does not take advantage of query distribution, also deficiencies exist in the traditional replacement policy when used in search engines. For the above problems, studies query distribu-tion features, analyses the insufficient of existing cache replace strategies, then proposes integrated value function model represent query future heat value based on query access features, analyses search engine query log for fine grain degrees, gets each query's daily access characteristics of detailed records, and based on multiple return analysis in the minimum II multiplication calculation to get the unknown parameter in the function model, designs cache management policy integrate current dynamic access attributes with the heat value of the query in the future, hit ratio test of replace management strategy through real query shows that, in contrast with traditional cache replace-ment strategy, this replacement strategy significantly exceeds them in hit rate.