计算机应用与软件
計算機應用與軟件
계산궤응용여연건
Computer Applications and Software
2015年
11期
27-31
,共5页
李煜%吕学强%李卓%徐丽萍
李煜%呂學彊%李卓%徐麗萍
리욱%려학강%리탁%서려평
查询意图识别%查询日志%用户行为分析%C4.5算法
查詢意圖識彆%查詢日誌%用戶行為分析%C4.5算法
사순의도식별%사순일지%용호행위분석%C4.5산법
Query intention%Query log%Users behaviour analysis%C4.5 algorithm
针对用户对搜索引擎查询结果满意度不高的问题,提出一种基于用户行为分析的查询意图识别方法来提高搜索引擎查询质量.将查询意图识别视为一个分类问题,分析搜狗查询日志发现:信息事务类查询串点击的不同页面数较多,分布呈现多极值性;导航类查询串点击的不同页面数较少,分布呈现单极值性;导航类查询结果中,子页面噪声对查询分类结果产生严重干扰.根据以上特点,提出“不同页面点击数”、“点击分布值”和“异源页面点击数”三个特征,并结合前人研究,利用C4.5算法训练分类器,进行查询意图识别.实验结果中查询分类的整体正确率达到90%,与Baseline相比,提高了8.5%.结果表明,该方法对识别用户查询意图是有效的.
針對用戶對搜索引擎查詢結果滿意度不高的問題,提齣一種基于用戶行為分析的查詢意圖識彆方法來提高搜索引擎查詢質量.將查詢意圖識彆視為一箇分類問題,分析搜狗查詢日誌髮現:信息事務類查詢串點擊的不同頁麵數較多,分佈呈現多極值性;導航類查詢串點擊的不同頁麵數較少,分佈呈現單極值性;導航類查詢結果中,子頁麵譟聲對查詢分類結果產生嚴重榦擾.根據以上特點,提齣“不同頁麵點擊數”、“點擊分佈值”和“異源頁麵點擊數”三箇特徵,併結閤前人研究,利用C4.5算法訓練分類器,進行查詢意圖識彆.實驗結果中查詢分類的整體正確率達到90%,與Baseline相比,提高瞭8.5%.結果錶明,該方法對識彆用戶查詢意圖是有效的.
침대용호대수색인경사순결과만의도불고적문제,제출일충기우용호행위분석적사순의도식별방법래제고수색인경사순질량.장사순의도식별시위일개분류문제,분석수구사순일지발현:신식사무류사순천점격적불동혈면수교다,분포정현다겁치성;도항류사순천점격적불동혈면수교소,분포정현단겁치성;도항류사순결과중,자혈면조성대사순분류결과산생엄중간우.근거이상특점,제출“불동혈면점격수”、“점격분포치”화“이원혈면점격수”삼개특정,병결합전인연구,이용C4.5산법훈련분류기,진행사순의도식별.실험결과중사순분류적정체정학솔체도90%,여Baseline상비,제고료8.5%.결과표명,해방법대식별용호사순의도시유효적.