福建工程学院学报
福建工程學院學報
복건공정학원학보
JOURNAL OF FUJIAN UNIVERSITY OF TECHNOLOGY
2011年
4期
351-356
,共6页
数据挖掘%均匀取样%偏倚取样%取样偏差%取样代表性%衡量与选用
數據挖掘%均勻取樣%偏倚取樣%取樣偏差%取樣代錶性%衡量與選用
수거알굴%균균취양%편의취양%취양편차%취양대표성%형량여선용
取样是一种通用有效的近似技术.在数据挖掘研究中,取样方法可显著减小所处理数据集的规模,使得众多数据挖掘算法得以应用到大规模数据集以及数据流数据上.文章在研究了统计学上随机均匀取样方法误差统计和衡量方法的基础上,着重探讨和研究了适用于数据挖掘领域的取样方法衡量标准以及影响取样方法选择的因素等问题,提出了能更好地评估取样质量,尤其是偏倚取样方法取样质量的“取样方法代表性”和“取样偏差”等概念并进行了量化,最后对数据挖掘取样方法的衡量标准和选用研究的后续工作与研究方向进行了阐述.
取樣是一種通用有效的近似技術.在數據挖掘研究中,取樣方法可顯著減小所處理數據集的規模,使得衆多數據挖掘算法得以應用到大規模數據集以及數據流數據上.文章在研究瞭統計學上隨機均勻取樣方法誤差統計和衡量方法的基礎上,著重探討和研究瞭適用于數據挖掘領域的取樣方法衡量標準以及影響取樣方法選擇的因素等問題,提齣瞭能更好地評估取樣質量,尤其是偏倚取樣方法取樣質量的“取樣方法代錶性”和“取樣偏差”等概唸併進行瞭量化,最後對數據挖掘取樣方法的衡量標準和選用研究的後續工作與研究方嚮進行瞭闡述.
취양시일충통용유효적근사기술.재수거알굴연구중,취양방법가현저감소소처리수거집적규모,사득음다수거알굴산법득이응용도대규모수거집이급수거류수거상.문장재연구료통계학상수궤균균취양방법오차통계화형량방법적기출상,착중탐토화연구료괄용우수거알굴영역적취양방법형량표준이급영향취양방법선택적인소등문제,제출료능경호지평고취양질량,우기시편의취양방법취양질량적“취양방법대표성”화“취양편차”등개념병진행료양화,최후대수거알굴취양방법적형량표준화선용연구적후속공작여연구방향진행료천술.