计算机光盘软件与应用
計算機光盤軟件與應用
계산궤광반연건여응용
COMPUTER CD SOFTWARE ADN APPLICATIONS
2014年
11期
110-110,112
,共2页
抄袭检测%云计算%Spark
抄襲檢測%雲計算%Spark
초습검측%운계산%Spark
抄袭检测从根本上说是一个文本相似度的计算问题,需要迅速准确的在海量文集中对文本的原创性进行检测,耗费大量时间和资源,是计算密集和数据密集的复杂过程。采用分布式计算是是提高检测效率的有有效手段之一。本文提出了一套基于Spark的分布式抄袭检测云计算框架,该框架使用由集群资源管理器Apache Mesos,支持内存驻留的MapReduce计算框架,分布式Hadooop文件系统构成的分布式计算集群。测试结果表明,此框架比Hadooop传统分布式计算框架在效率上有较大提升。
抄襲檢測從根本上說是一箇文本相似度的計算問題,需要迅速準確的在海量文集中對文本的原創性進行檢測,耗費大量時間和資源,是計算密集和數據密集的複雜過程。採用分佈式計算是是提高檢測效率的有有效手段之一。本文提齣瞭一套基于Spark的分佈式抄襲檢測雲計算框架,該框架使用由集群資源管理器Apache Mesos,支持內存駐留的MapReduce計算框架,分佈式Hadooop文件繫統構成的分佈式計算集群。測試結果錶明,此框架比Hadooop傳統分佈式計算框架在效率上有較大提升。
초습검측종근본상설시일개문본상사도적계산문제,수요신속준학적재해량문집중대문본적원창성진행검측,모비대량시간화자원,시계산밀집화수거밀집적복잡과정。채용분포식계산시시제고검측효솔적유유효수단지일。본문제출료일투기우Spark적분포식초습검측운계산광가,해광가사용유집군자원관리기Apache Mesos,지지내존주류적MapReduce계산광가,분포식Hadooop문건계통구성적분포식계산집군。측시결과표명,차광가비Hadooop전통분포식계산광가재효솔상유교대제승。