计算机科学与探索
計算機科學與探索
계산궤과학여탐색
JOURNAL OF FRONTIERS OF COMPUTER SCIENCE & TECHNOLOGY
2014年
7期
778-789
,共12页
朱命冬%申德荣%解宁%于戈%寇月%聂铁铮
硃命鼕%申德榮%解寧%于戈%寇月%聶鐵錚
주명동%신덕영%해저%우과%구월%섭철쟁
相似性查询%关联关系型数据%决策树%分布式查询方法
相似性查詢%關聯關繫型數據%決策樹%分佈式查詢方法
상사성사순%관련관계형수거%결책수%분포식사순방법
similarity query%relation information%decision tree%distributed query method
带有关联关系的数据在社网平台、电子商务平台、科学数据库等环境中普遍存在,对其进行相似性查询是在各种应用中常见的操作。随着社网、电子商务、云计算等技术的发展和普及,具有关联关系的数据飞速增长,对这种类型的数据进行相似性查询成为数据库领域的一个研究热点。在此应用背景下,提出了一种基于决策树的面向关联关系型数据的分布式相似性查询方法。该方法依据属性的重要度计算相似性,计算过程中达到一定的准确度时可以结束计算,从而在保证准确性的情况下减少了计算量。同时提出了两种分布式环境下面向大数据量的决策树计算方法,该方法具有较少的通信代价,并且有概率理论保证其准确度。最后通过大量的实验证明了方法的有效性。
帶有關聯關繫的數據在社網平檯、電子商務平檯、科學數據庫等環境中普遍存在,對其進行相似性查詢是在各種應用中常見的操作。隨著社網、電子商務、雲計算等技術的髮展和普及,具有關聯關繫的數據飛速增長,對這種類型的數據進行相似性查詢成為數據庫領域的一箇研究熱點。在此應用揹景下,提齣瞭一種基于決策樹的麵嚮關聯關繫型數據的分佈式相似性查詢方法。該方法依據屬性的重要度計算相似性,計算過程中達到一定的準確度時可以結束計算,從而在保證準確性的情況下減少瞭計算量。同時提齣瞭兩種分佈式環境下麵嚮大數據量的決策樹計算方法,該方法具有較少的通信代價,併且有概率理論保證其準確度。最後通過大量的實驗證明瞭方法的有效性。
대유관련관계적수거재사망평태、전자상무평태、과학수거고등배경중보편존재,대기진행상사성사순시재각충응용중상견적조작。수착사망、전자상무、운계산등기술적발전화보급,구유관련관계적수거비속증장,대저충류형적수거진행상사성사순성위수거고영역적일개연구열점。재차응용배경하,제출료일충기우결책수적면향관련관계형수거적분포식상사성사순방법。해방법의거속성적중요도계산상사성,계산과정중체도일정적준학도시가이결속계산,종이재보증준학성적정황하감소료계산량。동시제출료량충분포식배경하면향대수거량적결책수계산방법,해방법구유교소적통신대개,병차유개솔이론보증기준학도。최후통과대량적실험증명료방법적유효성。
Data with relation information are ubiquitous in kinds of environments, such as social network, e-commerce and science database, etc. With the development and popularization of the technology of social network, e-commerce and cloud computing, data with relation information grow explosively, it becomes a hot research topic to process simi-larity query on the data in the database field. So this paper proposes a distributed similarity query method on data with relation information, which is based on decision tree. This method can compute the similarity according to the importance of attributes, and stop the computation when the precision is achieved, so as to reduce the computation cost. And this paper also proposes two algorithms of computing decision tree on large data, which cause less communi-cation cost than existing methods and have accuracy guarantee. Lots of experiments verify the effectiveness and effi-ciency of the algorithms.