微型机与应用
微型機與應用
미형궤여응용
MICROCOMPUTER & ITS APPLICATIONS
2011年
16期
75-77,81
,共4页
数据填充%EM算法%朴素贝叶斯算法
數據填充%EM算法%樸素貝葉斯算法
수거전충%EM산법%박소패협사산법
missing values implement%EM algorithm%Naive Bayesian algorithm
实际应用中大量的不完整的数据集,造成了数据中信息的丢失和分析的不方便,所以对缺失数据的处理已经成为目前分类领域研究的热点。由于EM方法随机选取初始代表簇中心会导致聚类不稳定,本文使用朴素贝叶斯算法的分类结果作为EM算法的初始使用范围,然后按E步M步反复求精,利用得到的最大化值填充缺失数据。实验结果表明,本文的算法加强了聚类的稳定性,具有更好的数据填充效果。
實際應用中大量的不完整的數據集,造成瞭數據中信息的丟失和分析的不方便,所以對缺失數據的處理已經成為目前分類領域研究的熱點。由于EM方法隨機選取初始代錶簇中心會導緻聚類不穩定,本文使用樸素貝葉斯算法的分類結果作為EM算法的初始使用範圍,然後按E步M步反複求精,利用得到的最大化值填充缺失數據。實驗結果錶明,本文的算法加彊瞭聚類的穩定性,具有更好的數據填充效果。
실제응용중대량적불완정적수거집,조성료수거중신식적주실화분석적불방편,소이대결실수거적처리이경성위목전분류영역연구적열점。유우EM방법수궤선취초시대표족중심회도치취류불은정,본문사용박소패협사산법적분류결과작위EM산법적초시사용범위,연후안E보M보반복구정,이용득도적최대화치전충결실수거。실험결과표명,본문적산법가강료취류적은정성,구유경호적수거전충효과。
Dataset with missing values is quite common in real applications. It is a big problem of data pretreatment, and handling missing values has become a research hot issue. EM chooses the center of cluster randomly leading to cluster irregularly, so this paper uses the result of Na lye Bayesian as the initial range of EM, then refines the value reduplicative, finally gets the excepted maximize value. The research result suggests that this algorithm improved the level of cluster and had a better data makeup result.