数学的实践与认识
數學的實踐與認識
수학적실천여인식
MATHEMATICS IN PRACTICE AND THEORY
2013年
8期
160-169
,共10页
数据挖掘%近似聚集查询%取样%国会取样
數據挖掘%近似聚集查詢%取樣%國會取樣
수거알굴%근사취집사순%취양%국회취양
data mining%approximate aggregation queries%sampling%Congressional Samples
取样是一种通用有效的近似技术,利用取样技术进行近似聚集查询处理是决策支持系统和数据挖掘工具中的常用方法,如何正确有效地给出近似查询结果并最小化近似查询误差是查询处理的关键和目标.在对应用于近似聚集查询的代表性取样方法Congressional Samples(国会取样)深入研究的基础上,指出其存在的不足和应用的局限,提出了一个优化的Congressional Samples取样方法:OptCongress算法,算法在组数据内部存在高方差分布时能克服原算法简单均匀取样的不足,提高了近似聚集查询的质量,同时改进了原算法的各组取样数分配算法,克服了原分配算法缺乏严格的公式描述,难以进行理论评估的不足.最后,通过实验比较验证了该优化算法的有效性和正确性.
取樣是一種通用有效的近似技術,利用取樣技術進行近似聚集查詢處理是決策支持繫統和數據挖掘工具中的常用方法,如何正確有效地給齣近似查詢結果併最小化近似查詢誤差是查詢處理的關鍵和目標.在對應用于近似聚集查詢的代錶性取樣方法Congressional Samples(國會取樣)深入研究的基礎上,指齣其存在的不足和應用的跼限,提齣瞭一箇優化的Congressional Samples取樣方法:OptCongress算法,算法在組數據內部存在高方差分佈時能剋服原算法簡單均勻取樣的不足,提高瞭近似聚集查詢的質量,同時改進瞭原算法的各組取樣數分配算法,剋服瞭原分配算法缺乏嚴格的公式描述,難以進行理論評估的不足.最後,通過實驗比較驗證瞭該優化算法的有效性和正確性.
취양시일충통용유효적근사기술,이용취양기술진행근사취집사순처리시결책지지계통화수거알굴공구중적상용방법,여하정학유효지급출근사사순결과병최소화근사사순오차시사순처리적관건화목표.재대응용우근사취집사순적대표성취양방법Congressional Samples(국회취양)심입연구적기출상,지출기존재적불족화응용적국한,제출료일개우화적Congressional Samples취양방법:OptCongress산법,산법재조수거내부존재고방차분포시능극복원산법간단균균취양적불족,제고료근사취집사순적질량,동시개진료원산법적각조취양수분배산법,극복료원분배산법결핍엄격적공식묘술,난이진행이론평고적불족.최후,통과실험비교험증료해우화산법적유효성화정학성.