计算机工程与应用
計算機工程與應用
계산궤공정여응용
COMPUTER ENGINEERING AND APPLICATIONS
2008年
8期
179-182
,共4页
Web挖掘%会话识别%预处理%阈值
Web挖掘%會話識彆%預處理%閾值
Web알굴%회화식별%예처리%역치
会话识别是Web日志挖掘中的重要步骤.针对目前的各种会话识别方法,提出了一种改进的基于页面内容、下载时间等多个参数综合得到的针对每个用户的个性化识别方法.该方法通过使用访问时问间隔,判断是否在极大、极小两个阈值范围内来识别会话.根据页面内容、站点结构确定页面重要程度,通过页面的信息容量确定用户正常的阅读时间,通过Web日志中页面下载时间来确定起始阅读时间,对以上因素进行综合后对该阈值进行调整.实验结果表明,相对于目前的对所有用户页面使用单一先验阈值进行会话识别的方法及使用针对用户页面的阈值动态调整方法,提出的方法能更准确地个性化确定出页面访问时间阈值,更为合理有效.
會話識彆是Web日誌挖掘中的重要步驟.針對目前的各種會話識彆方法,提齣瞭一種改進的基于頁麵內容、下載時間等多箇參數綜閤得到的針對每箇用戶的箇性化識彆方法.該方法通過使用訪問時問間隔,判斷是否在極大、極小兩箇閾值範圍內來識彆會話.根據頁麵內容、站點結構確定頁麵重要程度,通過頁麵的信息容量確定用戶正常的閱讀時間,通過Web日誌中頁麵下載時間來確定起始閱讀時間,對以上因素進行綜閤後對該閾值進行調整.實驗結果錶明,相對于目前的對所有用戶頁麵使用單一先驗閾值進行會話識彆的方法及使用針對用戶頁麵的閾值動態調整方法,提齣的方法能更準確地箇性化確定齣頁麵訪問時間閾值,更為閤理有效.
회화식별시Web일지알굴중적중요보취.침대목전적각충회화식별방법,제출료일충개진적기우혈면내용、하재시간등다개삼수종합득도적침대매개용호적개성화식별방법.해방법통과사용방문시문간격,판단시부재겁대、겁소량개역치범위내래식별회화.근거혈면내용、참점결구학정혈면중요정도,통과혈면적신식용량학정용호정상적열독시간,통과Web일지중혈면하재시간래학정기시열독시간,대이상인소진행종합후대해역치진행조정.실험결과표명,상대우목전적대소유용호혈면사용단일선험역치진행회화식별적방법급사용침대용호혈면적역치동태조정방법,제출적방법능경준학지개성화학정출혈면방문시간역치,경위합리유효.