计算机学报
計算機學報
계산궤학보
CHINESE JOURNAL OF COMPUTERS
2008年
6期
1013-1024
,共12页
曹巍%王珊%覃雄派%王秋月
曹巍%王珊%覃雄派%王鞦月
조외%왕산%담웅파%왕추월
多维直方图%数据相关系数%值域密度%值域参数%属性值平均跨度
多維直方圖%數據相關繫數%值域密度%值域參數%屬性值平均跨度
다유직방도%수거상관계수%치역밀도%치역삼수%속성치평균과도
基于代价的RDBMS优化器需要对含有范围查询的合取谓词的结果集基数进行准确的估计,多维直方图对多维数据分布进行模拟,避免在估计结果集基数时采用数据独立性假设,造成估计误差过大,进而导致选择非优化的查询执行计划.在不同的数据分布情况下,传统的多维直方图(如MHist-2)效果有很大不同.数据相关系数和值域密度、值域参数是准确刻画多维数据分布的有效指标,文中提出了根据不同的指标采用不同的动态优化的多维直方图算法COCA-Hist,可以大大改善传统多维直方图在平均情况下的准确性.通过分析传统的多维直方图的最坏情况,COCA-Hist的改进算法可以改进传统的多维直方图在最坏情况下的准确性.实验比较了COCA-Hist和传统的多维直方图MHist-2以及GENHist和STHoles的准确性和时间效率.实验显示无论在平均情况下还是在最坏情况下COCA-Hist的改进算法均优于传统的MHist-2直方图,并且COCA-Hist的准确性和创建时间均比GENHist有极大的改善,在准确性方面COCA-Hist较优于STHoles,而在空间预算有限时STHoles的创建时间比COCA-Hist高两个数量级.
基于代價的RDBMS優化器需要對含有範圍查詢的閤取謂詞的結果集基數進行準確的估計,多維直方圖對多維數據分佈進行模擬,避免在估計結果集基數時採用數據獨立性假設,造成估計誤差過大,進而導緻選擇非優化的查詢執行計劃.在不同的數據分佈情況下,傳統的多維直方圖(如MHist-2)效果有很大不同.數據相關繫數和值域密度、值域參數是準確刻畫多維數據分佈的有效指標,文中提齣瞭根據不同的指標採用不同的動態優化的多維直方圖算法COCA-Hist,可以大大改善傳統多維直方圖在平均情況下的準確性.通過分析傳統的多維直方圖的最壞情況,COCA-Hist的改進算法可以改進傳統的多維直方圖在最壞情況下的準確性.實驗比較瞭COCA-Hist和傳統的多維直方圖MHist-2以及GENHist和STHoles的準確性和時間效率.實驗顯示無論在平均情況下還是在最壞情況下COCA-Hist的改進算法均優于傳統的MHist-2直方圖,併且COCA-Hist的準確性和創建時間均比GENHist有極大的改善,在準確性方麵COCA-Hist較優于STHoles,而在空間預算有限時STHoles的創建時間比COCA-Hist高兩箇數量級.
기우대개적RDBMS우화기수요대함유범위사순적합취위사적결과집기수진행준학적고계,다유직방도대다유수거분포진행모의,피면재고계결과집기수시채용수거독립성가설,조성고계오차과대,진이도치선택비우화적사순집행계화.재불동적수거분포정황하,전통적다유직방도(여MHist-2)효과유흔대불동.수거상관계수화치역밀도、치역삼수시준학각화다유수거분포적유효지표,문중제출료근거불동적지표채용불동적동태우화적다유직방도산법COCA-Hist,가이대대개선전통다유직방도재평균정황하적준학성.통과분석전통적다유직방도적최배정황,COCA-Hist적개진산법가이개진전통적다유직방도재최배정황하적준학성.실험비교료COCA-Hist화전통적다유직방도MHist-2이급GENHist화STHoles적준학성화시간효솔.실험현시무론재평균정황하환시재최배정황하COCA-Hist적개진산법균우우전통적MHist-2직방도,병차COCA-Hist적준학성화창건시간균비GENHist유겁대적개선,재준학성방면COCA-Hist교우우STHoles,이재공간예산유한시STHoles적창건시간비COCA-Hist고량개수량급.