统计与信息论坛
統計與信息論罈
통계여신식론단
STATISTICS & INFORMATION TRIBUNE
2015年
4期
3-6
,共4页
均匀设计%数据挖掘%大数据抽样
均勻設計%數據挖掘%大數據抽樣
균균설계%수거알굴%대수거추양
uniform design%data mining%big data sampling
就大数据生成过程的多维性、稀疏性和动态性等特征而言,大数据集并不等于统计总体,即便对于静态大数据集,随机抽样同样有着不可或缺的参数估计和总体推断的方法论价值。在大型数据分析中,常常遇到需要降低维度和减少计算量但又不知如何抽样处理的问题。因此,提出均匀抽样在大数据挖掘中应用的基本策略,并使用模拟数据和医学胎心宫缩监护数据集进行数值分析。结果表明:均匀抽样在降低决策树、adaboost、bagging和随机森林的误差率上优于现有文献的常用方法,这一策略能为面向大数据的数据挖掘方法提供参考,也为针对大数据分析的抽样有效性提供佐证。
就大數據生成過程的多維性、稀疏性和動態性等特徵而言,大數據集併不等于統計總體,即便對于靜態大數據集,隨機抽樣同樣有著不可或缺的參數估計和總體推斷的方法論價值。在大型數據分析中,常常遇到需要降低維度和減少計算量但又不知如何抽樣處理的問題。因此,提齣均勻抽樣在大數據挖掘中應用的基本策略,併使用模擬數據和醫學胎心宮縮鑑護數據集進行數值分析。結果錶明:均勻抽樣在降低決策樹、adaboost、bagging和隨機森林的誤差率上優于現有文獻的常用方法,這一策略能為麵嚮大數據的數據挖掘方法提供參攷,也為針對大數據分析的抽樣有效性提供佐證。
취대수거생성과정적다유성、희소성화동태성등특정이언,대수거집병불등우통계총체,즉편대우정태대수거집,수궤추양동양유착불가혹결적삼수고계화총체추단적방법론개치。재대형수거분석중,상상우도수요강저유도화감소계산량단우불지여하추양처리적문제。인차,제출균균추양재대수거알굴중응용적기본책략,병사용모의수거화의학태심궁축감호수거집진행수치분석。결과표명:균균추양재강저결책수、adaboost、bagging화수궤삼림적오차솔상우우현유문헌적상용방법,저일책략능위면향대수거적수거알굴방법제공삼고,야위침대대수거분석적추양유효성제공좌증。
On multidimensional ,sparse and dynamic characteristics of big data generation process ,the big data set does not mean that the statistical population .Even for big static data ,random sampling also has an indispensable value . In large‐scale data analysis , it is often encounter the need to reduce the dimensions and reduce the amount of calculation and yet we do not know how to deal with the problem of sampling .Our paper proposes a uniform sampling strategy in big data mining applications , and apply simulated data and monitoring fetal heart contractions datasets to numerical analysis .Our results indicate that proposed method is obviously superior to the existing methods in literatures on the error rate of the training data .This conclusion might be useful for the implementation of data mining by sampling on the large database ,and provide evidence for sampling effectiveness in big data analysis .