计算机科学与探索
計算機科學與探索
계산궤과학여탐색
JOURNAL OF FRONTIERS OF COMPUTER SCIENCE & TECHNOLOGY
2013年
11期
1009-1017
,共9页
钱宇华%成红红%张晓琴%梁吉业
錢宇華%成紅紅%張曉琴%樑吉業
전우화%성홍홍%장효금%량길업
大数据集%数据簸箕%随机并行序化原理(RPRP)%聚类簸箕
大數據集%數據簸箕%隨機併行序化原理(RPRP)%聚類簸箕
대수거집%수거파기%수궤병행서화원리(RPRP)%취류파기
very-large-scale data set%data dustpan%random parallel ranking principle (RPRP)%clustering dustpan
大数据时代的到来给数据挖掘和知识发现带来了很大的挑战。簸箕是一种大家熟知的农用工具,能快速将不同的物体分开。基于簸箕的工作机制,提出了一个新颖的学习原理:随机并行序化原理(random parallel ranking principle,RPRP),称为数据簸箕,可高效地对数据进行排序和分类。为了验证这种学习原理的有效性与高效性,设计了一种新的聚类方法,即聚类簸箕。实验结果表明,聚类簸箕能够快速且有效地对数据进行聚类。此外,该学习原理也能够用于设计高效的分类器。该数据簸箕有望推动大数据背景下机器学习与知识发现理论与方法的发展。
大數據時代的到來給數據挖掘和知識髮現帶來瞭很大的挑戰。簸箕是一種大傢熟知的農用工具,能快速將不同的物體分開。基于簸箕的工作機製,提齣瞭一箇新穎的學習原理:隨機併行序化原理(random parallel ranking principle,RPRP),稱為數據簸箕,可高效地對數據進行排序和分類。為瞭驗證這種學習原理的有效性與高效性,設計瞭一種新的聚類方法,即聚類簸箕。實驗結果錶明,聚類簸箕能夠快速且有效地對數據進行聚類。此外,該學習原理也能夠用于設計高效的分類器。該數據簸箕有望推動大數據揹景下機器學習與知識髮現理論與方法的髮展。
대수거시대적도래급수거알굴화지식발현대래료흔대적도전。파기시일충대가숙지적농용공구,능쾌속장불동적물체분개。기우파기적공작궤제,제출료일개신영적학습원리:수궤병행서화원리(random parallel ranking principle,RPRP),칭위수거파기,가고효지대수거진행배서화분류。위료험증저충학습원리적유효성여고효성,설계료일충신적취류방법,즉취류파기。실험결과표명,취류파기능구쾌속차유효지대수거진행취류。차외,해학습원리야능구용우설계고효적분류기。해수거파기유망추동대수거배경하궤기학습여지식발현이론여방법적발전。
Very-large-scale data bring about a great challenge for data mining and knowledge discovery. Dustpan, as a familiar tool, can rapidly differentiate objects into some clusters. Based on the work mechanism of a dustpan, this paper presents a novel learning principle:data dustpan, behind which is a random parallel ranking principle (RPRP), which can be used to efficiently rank objects from a large-scale data set. Then, through using the data dustpan, this paper develops a novel clustering method, called clustering dustpan, and its speed is quick. The experimental results show that the clustering dustpan algorithm is very efficient for organizing data. It is worth noting that the data dustpan can be used to efficiently learn a classifier when dealing with a large-scale data set.