计算机工程与应用
計算機工程與應用
계산궤공정여응용
COMPUTER ENGINEERING AND APPLICATIONS
2013年
3期
126-129
,共4页
超文本传送协议(HTTP)请求%浏览行为%数据采集%数据清理%过滤
超文本傳送協議(HTTP)請求%瀏覽行為%數據採集%數據清理%過濾
초문본전송협의(HTTP)청구%류람행위%수거채집%수거청리%과려
针对在多用户、多Web站点的网络访问环境下存在的数据采集问题,提出了一种新的数据采集及清理方法.引入网络嗅探的方式进行浏览行为数据的采集;在结合传统数据清理方法的基础上,提出一种利用HTTP请求间存在的引用和时间关系来清除HTTP请求产生的大量的非用户显式点击的附带请求.实验结果表明,该方法可以有效地采集浏览行为数据并清除大量的附带请求,抽取出能够反映用户显式点击的页面基请求,为用户浏览行为建模提供准确的数据源.
針對在多用戶、多Web站點的網絡訪問環境下存在的數據採集問題,提齣瞭一種新的數據採集及清理方法.引入網絡嗅探的方式進行瀏覽行為數據的採集;在結閤傳統數據清理方法的基礎上,提齣一種利用HTTP請求間存在的引用和時間關繫來清除HTTP請求產生的大量的非用戶顯式點擊的附帶請求.實驗結果錶明,該方法可以有效地採集瀏覽行為數據併清除大量的附帶請求,抽取齣能夠反映用戶顯式點擊的頁麵基請求,為用戶瀏覽行為建模提供準確的數據源.
침대재다용호、다Web참점적망락방문배경하존재적수거채집문제,제출료일충신적수거채집급청리방법.인입망락후탐적방식진행류람행위수거적채집;재결합전통수거청리방법적기출상,제출일충이용HTTP청구간존재적인용화시간관계래청제HTTP청구산생적대량적비용호현식점격적부대청구.실험결과표명,해방법가이유효지채집류람행위수거병청제대량적부대청구,추취출능구반영용호현식점격적혈면기청구,위용호류람행위건모제공준학적수거원.