软件产业与工程
軟件產業與工程
연건산업여공정
SOFTWARE INDUSTRY AND ENGINEERING
2014年
1期
35-38
,共4页
汤伟%黄培磊%陈璐艺%冯魏
湯偉%黃培磊%陳璐藝%馮魏
탕위%황배뢰%진로예%풍위
Web日志分析%事务分割%统计模型
Web日誌分析%事務分割%統計模型
Web일지분석%사무분할%통계모형
Web Log Analysis%Transaction Identiifcation%Statistical Model
Web日志分析预处理阶段的一个重要步骤是事务分割,把一系列的操作合并成完整的事务。文章提出了一种基于统计模型的事务分割算法。统计模型上采用了网站链接的边界访问概率和事务内的链接转移概率矩阵。算法将包含了若干个事务的日志片断作为一个整体,采用最大似然的准则来获得整体最优划分结果。在一个内网办公系统日志采集的数据集上,文章采用True Positive Rate和Precision两个统计量来比较不同事务划分算法的性能,结果证明了文章提出的算法的有效性。
Web日誌分析預處理階段的一箇重要步驟是事務分割,把一繫列的操作閤併成完整的事務。文章提齣瞭一種基于統計模型的事務分割算法。統計模型上採用瞭網站鏈接的邊界訪問概率和事務內的鏈接轉移概率矩陣。算法將包含瞭若榦箇事務的日誌片斷作為一箇整體,採用最大似然的準則來穫得整體最優劃分結果。在一箇內網辦公繫統日誌採集的數據集上,文章採用True Positive Rate和Precision兩箇統計量來比較不同事務劃分算法的性能,結果證明瞭文章提齣的算法的有效性。
Web일지분석예처리계단적일개중요보취시사무분할,파일계렬적조작합병성완정적사무。문장제출료일충기우통계모형적사무분할산법。통계모형상채용료망참련접적변계방문개솔화사무내적련접전이개솔구진。산법장포함료약간개사무적일지편단작위일개정체,채용최대사연적준칙래획득정체최우화분결과。재일개내망판공계통일지채집적수거집상,문장채용True Positive Rate화Precision량개통계량래비교불동사무화분산법적성능,결과증명료문장제출적산법적유효성。
Transaction identification is very important in pre-processing stage of Web log data mining. It combines several log accessing entries into a meaningful operation. The paper proposed a transaction identiifcation algorithm based on statistical model. The statistical model used is marginal statistics of URL visiting and transition probability matrix of two adjacent URL within a transaction. The algorithm ifnds a global optimized solution with maximum likelihood. On a dataset collected from an internal ofifce system, using true positive and precision, experiment result proves the effectiveness of the proposed algorithm.