计算机科学
計算機科學
계산궤과학
COMPUTER SCIENCE
2013年
8期
181-185
,共5页
王敬华%赵新想%张国燕%刘建银
王敬華%趙新想%張國燕%劉建銀
왕경화%조신상%장국연%류건은
数据挖掘%离群点检测%信息熵%聚类
數據挖掘%離群點檢測%信息熵%聚類
수거알굴%리군점검측%신식적%취류
Data mining%Outlier detection%Information entropy%Clustering
基于密度的局部离群点检测算法(LOF)的时间复杂度较高且不适用于大规模数据集和高维数据集的离群点检测.通过对LOF算法的分析,提出了一种新的局部离群点检测算法NLOF,该算法的主要思想如下:在数据对象邻域查询过程中,尽可能地利用已知信息优化邻近对象的邻域查询操作,有关邻域的计算查找都采用这种思想.首先通过聚类算法DBSCAN对数据集进行预处理,得到初步的异常数据集.然后利用LOF算法中计算局部异常因子的方法计算初步异常数据集中对象的局部异常程度.在计算数据对象的局部异常因子的过程中,引入去一划分信息熵增量,用去一划分信息熵差确定属性的权重,对属性的权值做具体的量化,在计算各对象之间的距离时采用加权距离.在真实数据集上对NLOF算法进行了充分的验证.结果显示,该算法能够提高离群点检测的精度,降低时间复杂度,实现有效的局部离群点的检测.
基于密度的跼部離群點檢測算法(LOF)的時間複雜度較高且不適用于大規模數據集和高維數據集的離群點檢測.通過對LOF算法的分析,提齣瞭一種新的跼部離群點檢測算法NLOF,該算法的主要思想如下:在數據對象鄰域查詢過程中,儘可能地利用已知信息優化鄰近對象的鄰域查詢操作,有關鄰域的計算查找都採用這種思想.首先通過聚類算法DBSCAN對數據集進行預處理,得到初步的異常數據集.然後利用LOF算法中計算跼部異常因子的方法計算初步異常數據集中對象的跼部異常程度.在計算數據對象的跼部異常因子的過程中,引入去一劃分信息熵增量,用去一劃分信息熵差確定屬性的權重,對屬性的權值做具體的量化,在計算各對象之間的距離時採用加權距離.在真實數據集上對NLOF算法進行瞭充分的驗證.結果顯示,該算法能夠提高離群點檢測的精度,降低時間複雜度,實現有效的跼部離群點的檢測.
기우밀도적국부리군점검측산법(LOF)적시간복잡도교고차불괄용우대규모수거집화고유수거집적리군점검측.통과대LOF산법적분석,제출료일충신적국부리군점검측산법NLOF,해산법적주요사상여하:재수거대상린역사순과정중,진가능지이용이지신식우화린근대상적린역사순조작,유관린역적계산사조도채용저충사상.수선통과취류산법DBSCAN대수거집진행예처리,득도초보적이상수거집.연후이용LOF산법중계산국부이상인자적방법계산초보이상수거집중대상적국부이상정도.재계산수거대상적국부이상인자적과정중,인입거일화분신식적증량,용거일화분신식적차학정속성적권중,대속성적권치주구체적양화,재계산각대상지간적거리시채용가권거리.재진실수거집상대NLOF산법진행료충분적험증.결과현시,해산법능구제고리군점검측적정도,강저시간복잡도,실현유효적국부리군점적검측.