情报学报
情報學報
정보학보
2012年
3期
242-249
,共8页
陈翀%刘晓兵%徐谷子%何靖%闫宏飞
陳翀%劉曉兵%徐穀子%何靖%閆宏飛
진충%류효병%서곡자%하정%염굉비
查询意图%用户点击%查询分类
查詢意圖%用戶點擊%查詢分類
사순의도%용호점격%사순분류
查询背后的信息需求被定义为查询意图,搜索引擎可以根据不同的查询意图,提供多样性的服务,优化检索效果.查询意图的识别多被看成是一种分类问题,现有的大多数方法都基于查询串文本本身的特征和查询的用户点击数据特征.这两种方法存在如下的困难:对于查询串的文本特征,查询比较短,特征比较稀疏,要进行比较准确的理解会比较困难;对于用户点击特征,由于用户提交查询的长尾性分布,大多数查询的提交次数都是较少的,对于这些查询,要判别它们的意图是比较困难的.为了克服长尾查询上查询意图判断的不可靠问题,本文提出利用查询结果的相关性分数的分布作为特征来判断查询意图的方法.这种方法依赖查询结果的特征,比查询串本身的特征更加丰富;同时不依赖于用户的点击数据,因此可以克服长尾查询上的困难.结果表明,使用结果分数分布,可以提高意图判别的准确程度.
查詢揹後的信息需求被定義為查詢意圖,搜索引擎可以根據不同的查詢意圖,提供多樣性的服務,優化檢索效果.查詢意圖的識彆多被看成是一種分類問題,現有的大多數方法都基于查詢串文本本身的特徵和查詢的用戶點擊數據特徵.這兩種方法存在如下的睏難:對于查詢串的文本特徵,查詢比較短,特徵比較稀疏,要進行比較準確的理解會比較睏難;對于用戶點擊特徵,由于用戶提交查詢的長尾性分佈,大多數查詢的提交次數都是較少的,對于這些查詢,要判彆它們的意圖是比較睏難的.為瞭剋服長尾查詢上查詢意圖判斷的不可靠問題,本文提齣利用查詢結果的相關性分數的分佈作為特徵來判斷查詢意圖的方法.這種方法依賴查詢結果的特徵,比查詢串本身的特徵更加豐富;同時不依賴于用戶的點擊數據,因此可以剋服長尾查詢上的睏難.結果錶明,使用結果分數分佈,可以提高意圖判彆的準確程度.
사순배후적신식수구피정의위사순의도,수색인경가이근거불동적사순의도,제공다양성적복무,우화검색효과.사순의도적식별다피간성시일충분류문제,현유적대다수방법도기우사순천문본본신적특정화사순적용호점격수거특정.저량충방법존재여하적곤난:대우사순천적문본특정,사순비교단,특정비교희소,요진행비교준학적리해회비교곤난;대우용호점격특정,유우용호제교사순적장미성분포,대다수사순적제교차수도시교소적,대우저사사순,요판별타문적의도시비교곤난적.위료극복장미사순상사순의도판단적불가고문제,본문제출이용사순결과적상관성분수적분포작위특정래판단사순의도적방법.저충방법의뢰사순결과적특정,비사순천본신적특정경가봉부;동시불의뢰우용호적점격수거,인차가이극복장미사순상적곤난.결과표명,사용결과분수분포,가이제고의도판별적준학정도.