计算机科学
計算機科學
계산궤과학
COMPUTER SCIENCE
2014年
11期
195-202
,共8页
数据流聚类%位置敏感哈希方法%Map-Reduce框架%DLCStream算法
數據流聚類%位置敏感哈希方法%Map-Reduce框架%DLCStream算法
수거류취류%위치민감합희방법%Map-Reduce광가%DLCStream산법
Data stream clustering%Locality sensitive hashing%Map-Reduce frame%DLCStream
近年来,随着计算机技术、信息处理技术在工业生产、信息处理等领域的广泛应用,会连续不断地产生大量随时间演变的序列型数据,构成时间序列数据流,如互联网新闻语料分析、网络入侵检测、股市行情分析和传感器网络数据分析等.实时数据流聚类分析是当前数据流挖掘研究的热点问题.单遍扫描算法虽然满足数据流高速、数据规模较大和实时分析的需求,但因缺乏有效的聚类算法来识别和区分模式而限制了其有效性和可扩展性.为了解决以上问题,提出云环境下基于LSH的分布式数据流聚类算法DLCStream,通过引入Map-Reduce框架和位置敏感哈希机制,DLCStream算法能够快速找到数据流中的聚类模式.通过详细的理论分析和实验验证表明,与传统的数据流聚类框架CluStream算法相比,DLCStream算法在高效并行处理、可扩展性和聚类结果质量方面更有优势.
近年來,隨著計算機技術、信息處理技術在工業生產、信息處理等領域的廣汎應用,會連續不斷地產生大量隨時間縯變的序列型數據,構成時間序列數據流,如互聯網新聞語料分析、網絡入侵檢測、股市行情分析和傳感器網絡數據分析等.實時數據流聚類分析是噹前數據流挖掘研究的熱點問題.單遍掃描算法雖然滿足數據流高速、數據規模較大和實時分析的需求,但因缺乏有效的聚類算法來識彆和區分模式而限製瞭其有效性和可擴展性.為瞭解決以上問題,提齣雲環境下基于LSH的分佈式數據流聚類算法DLCStream,通過引入Map-Reduce框架和位置敏感哈希機製,DLCStream算法能夠快速找到數據流中的聚類模式.通過詳細的理論分析和實驗驗證錶明,與傳統的數據流聚類框架CluStream算法相比,DLCStream算法在高效併行處理、可擴展性和聚類結果質量方麵更有優勢.
근년래,수착계산궤기술、신식처리기술재공업생산、신식처리등영역적엄범응용,회련속불단지산생대량수시간연변적서렬형수거,구성시간서렬수거류,여호련망신문어료분석、망락입침검측、고시행정분석화전감기망락수거분석등.실시수거류취류분석시당전수거류알굴연구적열점문제.단편소묘산법수연만족수거류고속、수거규모교대화실시분석적수구,단인결핍유효적취류산법래식별화구분모식이한제료기유효성화가확전성.위료해결이상문제,제출운배경하기우LSH적분포식수거류취류산법DLCStream,통과인입Map-Reduce광가화위치민감합희궤제,DLCStream산법능구쾌속조도수거류중적취류모식.통과상세적이론분석화실험험증표명,여전통적수거류취류광가CluStream산법상비,DLCStream산법재고효병행처리、가확전성화취류결과질량방면경유우세.