通信学报
通信學報
통신학보
JOURNAL OF CHINA INSTITUTE OF COMMUNICATIONS
2011年
7期
189-195
,共7页
辛洁%崔志明%赵朋朋%张广铭%鲜学丰
辛潔%崔誌明%趙朋朋%張廣銘%鮮學豐
신길%최지명%조붕붕%장엄명%선학봉
数据源发现%MapReduce%Deep Web%虚拟化技术%云计算
數據源髮現%MapReduce%Deep Web%虛擬化技術%雲計算
수거원발현%MapReduce%Deep Web%허의화기술%운계산
为了提高Deep Web爬虫发现和搜集数据源的效率,提出了一种融合MapReduce和虚拟化技术实现DeepWeb海量数据挖掘的并行计算方法.基于MapReduce架构提出了一个Deep Web爬虫模型,通过链接过滤分类、页面过滤分类、表单过滤分类等3个MapReduce过程找到Deep Web数据源接口,并利用虚拟机构建单机集群进行性能测试.实验结果显示该方法可以实现大规模数据的并行处理,有效提高爬虫数据源发现的效率,避免网络及物理资源的浪费,验证了云计算技术在Deep Web数据挖掘方面的可行性.
為瞭提高Deep Web爬蟲髮現和搜集數據源的效率,提齣瞭一種融閤MapReduce和虛擬化技術實現DeepWeb海量數據挖掘的併行計算方法.基于MapReduce架構提齣瞭一箇Deep Web爬蟲模型,通過鏈接過濾分類、頁麵過濾分類、錶單過濾分類等3箇MapReduce過程找到Deep Web數據源接口,併利用虛擬機構建單機集群進行性能測試.實驗結果顯示該方法可以實現大規模數據的併行處理,有效提高爬蟲數據源髮現的效率,避免網絡及物理資源的浪費,驗證瞭雲計算技術在Deep Web數據挖掘方麵的可行性.
위료제고Deep Web파충발현화수집수거원적효솔,제출료일충융합MapReduce화허의화기술실현DeepWeb해량수거알굴적병행계산방법.기우MapReduce가구제출료일개Deep Web파충모형,통과련접과려분류、혈면과려분류、표단과려분류등3개MapReduce과정조도Deep Web수거원접구,병이용허의궤구건단궤집군진행성능측시.실험결과현시해방법가이실현대규모수거적병행처리,유효제고파충수거원발현적효솔,피면망락급물리자원적낭비,험증료운계산기술재Deep Web수거알굴방면적가행성.