计算机工程与应用
計算機工程與應用
계산궤공정여응용
COMPUTER ENGINEERING AND APPLICATIONS
2011年
8期
118-121,142
,共5页
数据流%自助抽样%贝叶斯分类%滑动窗口%增量存储树
數據流%自助抽樣%貝葉斯分類%滑動窗口%增量存儲樹
수거류%자조추양%패협사분류%활동창구%증량존저수
动态数据流具有数据量大、变化快、随机存取代价高、详细数据难以存储等特点,挖掘动态数据流对计算能力与存储能力要求非常高.针对动态数据流的以上特点,设计了一种基于自助抽样的动态数据流贝叶斯分类算法,算法运用滑动窗口模型对动态数据流进行处理分析.该模型以每个窗口的数据为基本单位,对窗口内的数据进行处理分析;算法采用自助抽样技术对待分类数据中的属性进行裁剪和优化,解决了教据属性间的多重线性相关问题;算法结合贝叶斯算法的特点,采用动态增量存储树来解决动态样本数据流的存储问题,实现了无限动态数据流无信息失真的静态有限存储,解决了动态数据流挖掘最大的难题-教据存储;对优化的待分类数据使用a11-贝叶斯分类器和k-贝叶斯分类器进行分类,结合数据流的特性对两个分类器进行实时更新.该算法有效克服了贝叶斯分类属性独立性的约束和传统贝叶斯只对静态数据分类的缺点,克服了动态数据流最大的难题-数据存储问题.通过实验测试证明,基于自助抽样的贝叶斯分类具有很高的时效性和精确性.
動態數據流具有數據量大、變化快、隨機存取代價高、詳細數據難以存儲等特點,挖掘動態數據流對計算能力與存儲能力要求非常高.針對動態數據流的以上特點,設計瞭一種基于自助抽樣的動態數據流貝葉斯分類算法,算法運用滑動窗口模型對動態數據流進行處理分析.該模型以每箇窗口的數據為基本單位,對窗口內的數據進行處理分析;算法採用自助抽樣技術對待分類數據中的屬性進行裁剪和優化,解決瞭教據屬性間的多重線性相關問題;算法結閤貝葉斯算法的特點,採用動態增量存儲樹來解決動態樣本數據流的存儲問題,實現瞭無限動態數據流無信息失真的靜態有限存儲,解決瞭動態數據流挖掘最大的難題-教據存儲;對優化的待分類數據使用a11-貝葉斯分類器和k-貝葉斯分類器進行分類,結閤數據流的特性對兩箇分類器進行實時更新.該算法有效剋服瞭貝葉斯分類屬性獨立性的約束和傳統貝葉斯隻對靜態數據分類的缺點,剋服瞭動態數據流最大的難題-數據存儲問題.通過實驗測試證明,基于自助抽樣的貝葉斯分類具有很高的時效性和精確性.
동태수거류구유수거량대、변화쾌、수궤존취대개고、상세수거난이존저등특점,알굴동태수거류대계산능력여존저능력요구비상고.침대동태수거류적이상특점,설계료일충기우자조추양적동태수거류패협사분류산법,산법운용활동창구모형대동태수거류진행처리분석.해모형이매개창구적수거위기본단위,대창구내적수거진행처리분석;산법채용자조추양기술대대분류수거중적속성진행재전화우화,해결료교거속성간적다중선성상관문제;산법결합패협사산법적특점,채용동태증량존저수래해결동태양본수거류적존저문제,실현료무한동태수거류무신식실진적정태유한존저,해결료동태수거류알굴최대적난제-교거존저;대우화적대분류수거사용a11-패협사분류기화k-패협사분류기진행분류,결합수거류적특성대량개분류기진행실시경신.해산법유효극복료패협사분류속성독립성적약속화전통패협사지대정태수거분류적결점,극복료동태수거류최대적난제-수거존저문제.통과실험측시증명,기우자조추양적패협사분류구유흔고적시효성화정학성.