计算机研究与发展
計算機研究與髮展
계산궤연구여발전
JOURNAL OF COMPUTER RESEARCH AND DEVELOPMENT
2013年
z1期
312-321
,共10页
金连%王宏志%黄沈滨%高宏
金連%王宏誌%黃瀋濱%高宏
금련%왕굉지%황침빈%고굉
缺失值填充%概率推理%Map-Reduce
缺失值填充%概率推理%Map-Reduce
결실치전충%개솔추리%Map-Reduce
missing value imputation%probabilistic reasoning%Map-Reduce
缺失值大量存在于现实数据库中,这不仅严重影响了信息查询质量,还会扭曲数据挖掘与数据分析结论,进而误导决策.解决这一问题的最佳方法是预先填充这些丢失的数据.给出了一种基于概率推理的填充分类属性的算法.推理过程是在一个基于属性相关性而建立起来的贝叶斯网中完成.为实现大数据处理的并行化,在Map-Reduce框架中给出这两个算法.实验部分分别验证了贝叶斯网构建方法和概率推理对分类数据处理的有效性,以及算法在hadoop中运行的并行化程度.
缺失值大量存在于現實數據庫中,這不僅嚴重影響瞭信息查詢質量,還會扭麯數據挖掘與數據分析結論,進而誤導決策.解決這一問題的最佳方法是預先填充這些丟失的數據.給齣瞭一種基于概率推理的填充分類屬性的算法.推理過程是在一箇基于屬性相關性而建立起來的貝葉斯網中完成.為實現大數據處理的併行化,在Map-Reduce框架中給齣這兩箇算法.實驗部分分彆驗證瞭貝葉斯網構建方法和概率推理對分類數據處理的有效性,以及算法在hadoop中運行的併行化程度.
결실치대량존재우현실수거고중,저불부엄중영향료신식사순질량,환회뉴곡수거알굴여수거분석결론,진이오도결책.해결저일문제적최가방법시예선전충저사주실적수거.급출료일충기우개솔추리적전충분류속성적산법.추리과정시재일개기우속성상관성이건립기래적패협사망중완성.위실현대수거처리적병행화,재Map-Reduce광가중급출저량개산법.실험부분분별험증료패협사망구건방법화개솔추리대분류수거처리적유효성,이급산법재hadoop중운행적병행화정도.