计算机科学
計算機科學
계산궤과학
COMPUTER SCIENCE
2015年
6期
193-203
,共11页
曹巍%王秋月%覃雄派%王珊
曹巍%王鞦月%覃雄派%王珊
조외%왕추월%담웅파%왕산
数据分布%混合数据分布%相关性%数据分布区域%相关性差异分数
數據分佈%混閤數據分佈%相關性%數據分佈區域%相關性差異分數
수거분포%혼합수거분포%상관성%수거분포구역%상관성차이분수
Data distribution%Hybrid data distribution%Data association%Sub-regions in data distribution%Differentiating score of association
混合数据分布是指数据分布的不同区域具有不同的特殊分布.例如销售额和地区两个属性之间,在销售额比较低的数值区间中,两者呈现近似相互独立的数据分布;而在销售额比较高的数值区间,二者呈现近似函数依赖的数据分布.现有检测数据相关性的研究专注于给出一个总体的二维相关性的度量,而无法检测出子区域的特殊相关性.在统计分析时,这类具有特殊相关性的子区域有更丰富的统计意义,值得引起重视.研究并提出了存在这类混合数据分布的情况下,检测数据相关性的新方法HY-COCA.该方法在熵相关系数的基础上,缩小了子区域的搜索空间,与Naive方法相比,降低了复杂度;同时HY-COCA还讨论了子区域的相关性差异判别与结果展示等问题.在生成的数据和测试基准数据上进行了实验,结果验证了方法的有效性.
混閤數據分佈是指數據分佈的不同區域具有不同的特殊分佈.例如銷售額和地區兩箇屬性之間,在銷售額比較低的數值區間中,兩者呈現近似相互獨立的數據分佈;而在銷售額比較高的數值區間,二者呈現近似函數依賴的數據分佈.現有檢測數據相關性的研究專註于給齣一箇總體的二維相關性的度量,而無法檢測齣子區域的特殊相關性.在統計分析時,這類具有特殊相關性的子區域有更豐富的統計意義,值得引起重視.研究併提齣瞭存在這類混閤數據分佈的情況下,檢測數據相關性的新方法HY-COCA.該方法在熵相關繫數的基礎上,縮小瞭子區域的搜索空間,與Naive方法相比,降低瞭複雜度;同時HY-COCA還討論瞭子區域的相關性差異判彆與結果展示等問題.在生成的數據和測試基準數據上進行瞭實驗,結果驗證瞭方法的有效性.
혼합수거분포시지수거분포적불동구역구유불동적특수분포.례여소수액화지구량개속성지간,재소수액비교저적수치구간중,량자정현근사상호독립적수거분포;이재소수액비교고적수치구간,이자정현근사함수의뢰적수거분포.현유검측수거상관성적연구전주우급출일개총체적이유상관성적도량,이무법검측출자구역적특수상관성.재통계분석시,저류구유특수상관성적자구역유경봉부적통계의의,치득인기중시.연구병제출료존재저류혼합수거분포적정황하,검측수거상관성적신방법HY-COCA.해방법재적상관계수적기출상,축소료자구역적수색공간,여Naive방법상비,강저료복잡도;동시HY-COCA환토론료자구역적상관성차이판별여결과전시등문제.재생성적수거화측시기준수거상진행료실험,결과험증료방법적유효성.