计算机技术与发展
計算機技術與髮展
계산궤기술여발전
COMPUTER TECHNOLOGY AND DEVELOPMENT
2013年
5期
30-33
,共4页
王晓阳%张洪渊%沈良忠%池万乐
王曉暘%張洪淵%瀋良忠%池萬樂
왕효양%장홍연%침량충%지만악
高维数据%相似性度量%数据聚类
高維數據%相似性度量%數據聚類
고유수거%상사성도량%수거취류
high dimensional data%similarity measurement%data clustering
高维数据空间中的高维数据相似性度量问题是一个具有挑战性的课题.针对传统数据相似性度量算法在高维数据空间的不适应性,通过对传统的距离度量方法进行分析,结合高维数据特性,提出了高维数据相似性度量函数Esim( X, Y ).将其与已有的相似性度量函数Hsim( X,Y )进行比较,得出改进的算法在高维相似性度量方面的优越性,特别是在高值数据之间与低值数据之间的相对差异方面更具优势.利用数值型数据集进行实验分析,验证了该函数在高维数据空间聚类的有效性和合理性.
高維數據空間中的高維數據相似性度量問題是一箇具有挑戰性的課題.針對傳統數據相似性度量算法在高維數據空間的不適應性,通過對傳統的距離度量方法進行分析,結閤高維數據特性,提齣瞭高維數據相似性度量函數Esim( X, Y ).將其與已有的相似性度量函數Hsim( X,Y )進行比較,得齣改進的算法在高維相似性度量方麵的優越性,特彆是在高值數據之間與低值數據之間的相對差異方麵更具優勢.利用數值型數據集進行實驗分析,驗證瞭該函數在高維數據空間聚類的有效性和閤理性.
고유수거공간중적고유수거상사성도량문제시일개구유도전성적과제.침대전통수거상사성도량산법재고유수거공간적불괄응성,통과대전통적거리도량방법진행분석,결합고유수거특성,제출료고유수거상사성도량함수Esim( X, Y ).장기여이유적상사성도량함수Hsim( X,Y )진행비교,득출개진적산법재고유상사성도량방면적우월성,특별시재고치수거지간여저치수거지간적상대차이방면경구우세.이용수치형수거집진행실험분석,험증료해함수재고유수거공간취류적유효성화합이성.
@@@@The problem of similarity measurement for high dimensional data between high dimensional spaces is a challenging issue. Ai-ming at the problems of the inapplicability of the traditional measurement in high dimensional space,the improved function Esim( X,Y ) is proposed to measure the similarity between the data in high dimensional space through analyzing and summarizing the traditional meas-urement with the properties of high dimensional data. Advantages of the improved function are obvious between high dimensional space similarity measurement comparing with Hsim( X,Y ),especially in high values and low values. The experiments by numerical dataset demonstrate that the function Esim( X,Y ) is effective and reasonable in high dimensional data clustering.