计算机工程
計算機工程
계산궤공정
COMPUTER ENGINEERING
2008年
21期
40-41,44
,共3页
搜索引擎%日志分析%重复性%Zipf分布
搜索引擎%日誌分析%重複性%Zipf分佈
수색인경%일지분석%중복성%Zipf분포
分析大规模中文搜索日志中的查询重复性,通过对查询重复率和用户个体查询重复率等数据的统计发现:查询串的查询频率,文档的点击频率及用户查询频率均符合Zipf分布,查询重复率较高.查询历史越长,查询重复率越高.高查询频率用户的查询重复率较高.以上数据为中文搜索引擎的改进提供了有力的依据.
分析大規模中文搜索日誌中的查詢重複性,通過對查詢重複率和用戶箇體查詢重複率等數據的統計髮現:查詢串的查詢頻率,文檔的點擊頻率及用戶查詢頻率均符閤Zipf分佈,查詢重複率較高.查詢歷史越長,查詢重複率越高.高查詢頻率用戶的查詢重複率較高.以上數據為中文搜索引擎的改進提供瞭有力的依據.
분석대규모중문수색일지중적사순중복성,통과대사순중복솔화용호개체사순중복솔등수거적통계발현:사순천적사순빈솔,문당적점격빈솔급용호사순빈솔균부합Zipf분포,사순중복솔교고.사순역사월장,사순중복솔월고.고사순빈솔용호적사순중복솔교고.이상수거위중문수색인경적개진제공료유력적의거.