计算机科学与探索
計算機科學與探索
계산궤과학여탐색
JOURNAL OF FRONTIERS OF COMPUTER SCIENCE & TECHNOLOGY
2015年
2期
172-181
,共10页
曹科研%王国仁%韩东红%李硕儒
曹科研%王國仁%韓東紅%李碩儒
조과연%왕국인%한동홍%리석유
不确定数据%数据挖掘%异常点%top-k
不確定數據%數據挖掘%異常點%top-k
불학정수거%수거알굴%이상점%top-k
uncertain data%data mining%outlier%top-k
近几年,随着数据流和不确定数据的产生,不确定数据流上的异常点检测成为新的研究热点。然而,现有的不确定数据的异常点定义中涉及3个参数,这对于用户是非常难设定的,以致不能查询到适合的异常点。在大多时候,用户更想知道最可能是异常点的对象,因此提出了不确定数据流上的top-k异常点查询算法。该算法通过估计数据对象异常点的概率范围而进行剪枝,从而减少了一些不必要的计算,同时增量地计算数据对象异常点的概率范围。在真实数据集和合成数据集上进行了一系列的模拟实验,证明了算法的性能。
近幾年,隨著數據流和不確定數據的產生,不確定數據流上的異常點檢測成為新的研究熱點。然而,現有的不確定數據的異常點定義中涉及3箇參數,這對于用戶是非常難設定的,以緻不能查詢到適閤的異常點。在大多時候,用戶更想知道最可能是異常點的對象,因此提齣瞭不確定數據流上的top-k異常點查詢算法。該算法通過估計數據對象異常點的概率範圍而進行剪枝,從而減少瞭一些不必要的計算,同時增量地計算數據對象異常點的概率範圍。在真實數據集和閤成數據集上進行瞭一繫列的模擬實驗,證明瞭算法的性能。
근궤년,수착수거류화불학정수거적산생,불학정수거류상적이상점검측성위신적연구열점。연이,현유적불학정수거적이상점정의중섭급3개삼수,저대우용호시비상난설정적,이치불능사순도괄합적이상점。재대다시후,용호경상지도최가능시이상점적대상,인차제출료불학정수거류상적top-k이상점사순산법。해산법통과고계수거대상이상점적개솔범위이진행전지,종이감소료일사불필요적계산,동시증량지계산수거대상이상점적개솔범위。재진실수거집화합성수거집상진행료일계렬적모의실험,증명료산법적성능。
In recent years, along with the appearance of uncertain data, outlier detection on uncertain data stream becomes a new hotspot. However, three parameters are contained in the existing definition of outlier on uncertain data, it is very difficult for users to set these parameters, the user cannot get the suitable outlier. Most of the time, the users would like to get the objects which are most likely to be outliers. This paper proposes the top-k outlier detection on uncertain data stream. The proposed method prunes objects based on the estimation of the range of probabilities being outlier and reduces some unnecessary computation. Meanwhile, this paper proposes the incremental method for computing the range of probabilities to improve efficiency. Finally, the performance of the proposed method is veri-fied through a number of simulation experiments on real and synthetic datasets.