计算机科学
計算機科學
계산궤과학
COMPUTER SCIENCE
2015年
1期
1-5,27
,共6页
海量数据%相似性连接%MapReduce%Top-k
海量數據%相似性連接%MapReduce%Top-k
해량수거%상사성련접%MapReduce%Top-k
Massive data%Similarity join%MapReduce%Top-k
海量数据相似性连接作为海量数据处理的基本操作,在文本聚类、剽窃检测、实体解析等研究领域具有重要作用.另一方面,MapReduce编程模型因为具有良好的可扩放性、容错性和易用性,被广泛地应用于海量数据处理.因此,基于MapReduce框架的海量数据相似性连接查询技术成为海量数据处理领域的热点问题之一.首先,概括了海量数据固有特点和MapReduce编程框架的缺陷给现有相似性连接查询技术带来的巨大挑战;其次,提出了海量数据相似性连接的定义,按3种不同的分类标准对其进行了分类;接着,重点分析了集合、字符串和向量数据类型的海量相似性连接查询最新技术,并从效率和适用范围等方面分别对这些技术进行了比较;最后,讨论了海量数据相似性连接查询技术亟待解决的关键问题,并提出了一些有前景的解决方案.
海量數據相似性連接作為海量數據處理的基本操作,在文本聚類、剽竊檢測、實體解析等研究領域具有重要作用.另一方麵,MapReduce編程模型因為具有良好的可擴放性、容錯性和易用性,被廣汎地應用于海量數據處理.因此,基于MapReduce框架的海量數據相似性連接查詢技術成為海量數據處理領域的熱點問題之一.首先,概括瞭海量數據固有特點和MapReduce編程框架的缺陷給現有相似性連接查詢技術帶來的巨大挑戰;其次,提齣瞭海量數據相似性連接的定義,按3種不同的分類標準對其進行瞭分類;接著,重點分析瞭集閤、字符串和嚮量數據類型的海量相似性連接查詢最新技術,併從效率和適用範圍等方麵分彆對這些技術進行瞭比較;最後,討論瞭海量數據相似性連接查詢技術亟待解決的關鍵問題,併提齣瞭一些有前景的解決方案.
해량수거상사성련접작위해량수거처리적기본조작,재문본취류、표절검측、실체해석등연구영역구유중요작용.령일방면,MapReduce편정모형인위구유량호적가확방성、용착성화역용성,피엄범지응용우해량수거처리.인차,기우MapReduce광가적해량수거상사성련접사순기술성위해량수거처리영역적열점문제지일.수선,개괄료해량수거고유특점화MapReduce편정광가적결함급현유상사성련접사순기술대래적거대도전;기차,제출료해량수거상사성련접적정의,안3충불동적분류표준대기진행료분류;접착,중점분석료집합、자부천화향량수거류형적해량상사성련접사순최신기술,병종효솔화괄용범위등방면분별대저사기술진행료비교;최후,토론료해량수거상사성련접사순기술극대해결적관건문제,병제출료일사유전경적해결방안.