计算机工程
計算機工程
계산궤공정
COMPUTER ENGINEERING
2015年
4期
36-40
,共5页
高梦超%胡庆宝%程耀东%周旭%李海波%杜然
高夢超%鬍慶寶%程耀東%週旭%李海波%杜然
고몽초%호경보%정요동%주욱%리해파%두연
社交网络%众包模式%分布式计算%信息采集%Web爬虫%Hadoop分布式文件系统
社交網絡%衆包模式%分佈式計算%信息採集%Web爬蟲%Hadoop分佈式文件繫統
사교망락%음포모식%분포식계산%신식채집%Web파충%Hadoop분포식문건계통
social network%crowdsourcing mode%distributed computing%information collection%Web crawler%Hadoop Distributed File System( HDFS)
社交网络数据信息量大、主题性强,具有巨大的数据挖掘价值,是互联网大数据的重要组成部分。针对传统搜索引擎无法利用关键字检索技术直接索引社交网络平台信息的现状,基于众包模式,采用C/S架构,设计社交网络数据采集模型,包含服务端、客户端、存储系统与主题Deep Web爬虫系统4个模块。通过主题Deep Web爬虫的分布式机器节点自动向服务器请求爬虫任务并上传爬取数据,利用Hadoop分布式文件系统对爬取数据进行快速处理并存储结果数据。实验结果表明,主题Deep Web爬虫系统配置简单,支持功能扩展和目标信息直接获取,数据采集模型具有较快的数据获取速度及较高的信息检索效率。
社交網絡數據信息量大、主題性彊,具有巨大的數據挖掘價值,是互聯網大數據的重要組成部分。針對傳統搜索引擎無法利用關鍵字檢索技術直接索引社交網絡平檯信息的現狀,基于衆包模式,採用C/S架構,設計社交網絡數據採集模型,包含服務耑、客戶耑、存儲繫統與主題Deep Web爬蟲繫統4箇模塊。通過主題Deep Web爬蟲的分佈式機器節點自動嚮服務器請求爬蟲任務併上傳爬取數據,利用Hadoop分佈式文件繫統對爬取數據進行快速處理併存儲結果數據。實驗結果錶明,主題Deep Web爬蟲繫統配置簡單,支持功能擴展和目標信息直接穫取,數據採集模型具有較快的數據穫取速度及較高的信息檢索效率。
사교망락수거신식량대、주제성강,구유거대적수거알굴개치,시호련망대수거적중요조성부분。침대전통수색인경무법이용관건자검색기술직접색인사교망락평태신식적현상,기우음포모식,채용C/S가구,설계사교망락수거채집모형,포함복무단、객호단、존저계통여주제Deep Web파충계통4개모괴。통과주제Deep Web파충적분포식궤기절점자동향복무기청구파충임무병상전파취수거,이용Hadoop분포식문건계통대파취수거진행쾌속처리병존저결과수거。실험결과표명,주제Deep Web파충계통배치간단,지지공능확전화목표신식직접획취,수거채집모형구유교쾌적수거획취속도급교고적신식검색효솔。
Social network data has the features of informative and strong topicality with significant value for data mining,and it is also a very important part of the Internet big data. However,traditional search engines can not use the keywords retrieve technology to index the information of social network platform directly,and under such circumstances, this paper designs and implements a data collection model based on crowdsourcing mode and C/S architecture. The model consists of four modules including server,client,storage sub-system and a Deep Web crawler system. The nodes run the topic Deep Web crawler system to request new tasks automatically and upload the acquired data,meanwhile the system uses the Hadoop Distributed File System( HDFS) to process data rapidly and store results. The topic Deep Web crawler system has the features of easy configuration,flexible scalability and direct data collection,and it also proves that data collection model is able to fulfill the tasks in a high success rate and collect data in an efficient way.