计算机应用
計算機應用
계산궤응용
COMPUTER APPLICATION
2012年
z2期
22-25
,共4页
史椸%赵静%鲍军鹏%齐勇%林秦颖
史椸%趙靜%鮑軍鵬%齊勇%林秦穎
사이%조정%포군붕%제용%림진영
时序数据%野值识别%聚类挖掘%DBSCAN算法
時序數據%野值識彆%聚類挖掘%DBSCAN算法
시서수거%야치식별%취류알굴%DBSCAN산법
时序数据中的野值会直接影响数据挖掘算法的结果,甚至造成算法失效.传统的基于密度的带有噪声的空间聚类(DBSCAN)算法可以用来识别野值,但是却存在算法对参数敏感、时间复杂度高、精度不高等问题.针对时序数据的特点,提出了一种可自动进行多次识别的基于方差聚类的野值识别算法.该方法通过将传统的邻域密度转换为方差和均值、将密度阈值转换为时间窗口内的方差和阈值,在定义野值数据、野簇数据和异常簇数据的基础上,给出野值识别方法的判断规则.同时,针对一次野值识别不能将全部野值剔除的问题,通过定义多次野值识别的结束条件将算法扩展为多次野值识别算法.通过在某航天数据挖掘项目中的应用,验证了该算法具有较好的通用性、低的时间复杂度、可进行多次识别以提高精度等特点.
時序數據中的野值會直接影響數據挖掘算法的結果,甚至造成算法失效.傳統的基于密度的帶有譟聲的空間聚類(DBSCAN)算法可以用來識彆野值,但是卻存在算法對參數敏感、時間複雜度高、精度不高等問題.針對時序數據的特點,提齣瞭一種可自動進行多次識彆的基于方差聚類的野值識彆算法.該方法通過將傳統的鄰域密度轉換為方差和均值、將密度閾值轉換為時間窗口內的方差和閾值,在定義野值數據、野簇數據和異常簇數據的基礎上,給齣野值識彆方法的判斷規則.同時,針對一次野值識彆不能將全部野值剔除的問題,通過定義多次野值識彆的結束條件將算法擴展為多次野值識彆算法.通過在某航天數據挖掘項目中的應用,驗證瞭該算法具有較好的通用性、低的時間複雜度、可進行多次識彆以提高精度等特點.
시서수거중적야치회직접영향수거알굴산법적결과,심지조성산법실효.전통적기우밀도적대유조성적공간취류(DBSCAN)산법가이용래식별야치,단시각존재산법대삼수민감、시간복잡도고、정도불고등문제.침대시서수거적특점,제출료일충가자동진행다차식별적기우방차취류적야치식별산법.해방법통과장전통적린역밀도전환위방차화균치、장밀도역치전환위시간창구내적방차화역치,재정의야치수거、야족수거화이상족수거적기출상,급출야치식별방법적판단규칙.동시,침대일차야치식별불능장전부야치척제적문제,통과정의다차야치식별적결속조건장산법확전위다차야치식별산법.통과재모항천수거알굴항목중적응용,험증료해산법구유교호적통용성、저적시간복잡도、가진행다차식별이제고정도등특점.