集成技术
集成技術
집성기술
Journal of Integration Technology
2012年
1期
43-47
,共5页
流数据%多播%网页抓取%API%松耦合
流數據%多播%網頁抓取%API%鬆耦閤
류수거%다파%망혈조취%API%송우합
海量流数据的分析与处理是信息社会面对的一个基本问题.各种传感器汇聚的数据是流数据,人们发出的短信对于移动通信运营商的数据中心来说是流数据,人们写的微博对于新浪或者腾讯来说是流数据,搜索引擎网页爬取子系统传给后台处理的数据也可以看成是流数据.尽管它们的应用背景不同,但有共同的特征,即存在一个网络上的汇聚节点,从该节点的角度看,数据源源不断地到来.通常,这些数据会以某种特定的格式缓存起来,待某个特定的后续系统处理.启发本文工作的问题是:那些数据常常是有多方面价值的,有些甚至是当前没有想到的,我们有必要同时开放个流数据接口供未来可能出现的新应用调用.该接口应该具有如下特征:(1)向外输出原始流数据; (2)允许其他(多个)应用程序动态接入和退出; (3)接入的应用程序的行为不影响数据搜集和最初设计的后续系统的功能.本文以连续运行了10年以上的天网搜索引擎和中国Web博物馆(WebInfomall)为例,讨论其网页搜集子系统的改造以适应上述需求,IP多播是采用的基本技术.在介绍了设计思想和实现要点后,我们也给出 个“新应用”的实际例子.这样一个接口的实现,为各种网页流信息分析应用打开了一扇窗口.该接口的设计思想也可以用于其他流数据汇聚系统中.
海量流數據的分析與處理是信息社會麵對的一箇基本問題.各種傳感器彙聚的數據是流數據,人們髮齣的短信對于移動通信運營商的數據中心來說是流數據,人們寫的微博對于新浪或者騰訊來說是流數據,搜索引擎網頁爬取子繫統傳給後檯處理的數據也可以看成是流數據.儘管它們的應用揹景不同,但有共同的特徵,即存在一箇網絡上的彙聚節點,從該節點的角度看,數據源源不斷地到來.通常,這些數據會以某種特定的格式緩存起來,待某箇特定的後續繫統處理.啟髮本文工作的問題是:那些數據常常是有多方麵價值的,有些甚至是噹前沒有想到的,我們有必要同時開放箇流數據接口供未來可能齣現的新應用調用.該接口應該具有如下特徵:(1)嚮外輸齣原始流數據; (2)允許其他(多箇)應用程序動態接入和退齣; (3)接入的應用程序的行為不影響數據搜集和最初設計的後續繫統的功能.本文以連續運行瞭10年以上的天網搜索引擎和中國Web博物館(WebInfomall)為例,討論其網頁搜集子繫統的改造以適應上述需求,IP多播是採用的基本技術.在介紹瞭設計思想和實現要點後,我們也給齣 箇“新應用”的實際例子.這樣一箇接口的實現,為各種網頁流信息分析應用打開瞭一扇窗口.該接口的設計思想也可以用于其他流數據彙聚繫統中.
해량류수거적분석여처리시신식사회면대적일개기본문제.각충전감기회취적수거시류수거,인문발출적단신대우이동통신운영상적수거중심래설시류수거,인문사적미박대우신랑혹자등신래설시류수거,수색인경망혈파취자계통전급후태처리적수거야가이간성시류수거.진관타문적응용배경불동,단유공동적특정,즉존재일개망락상적회취절점,종해절점적각도간,수거원원불단지도래.통상,저사수거회이모충특정적격식완존기래,대모개특정적후속계통처리.계발본문공작적문제시:나사수거상상시유다방면개치적,유사심지시당전몰유상도적,아문유필요동시개방개류수거접구공미래가능출현적신응용조용.해접구응해구유여하특정:(1)향외수출원시류수거; (2)윤허기타(다개)응용정서동태접입화퇴출; (3)접입적응용정서적행위불영향수거수집화최초설계적후속계통적공능.본문이련속운행료10년이상적천망수색인경화중국Web박물관(WebInfomall)위례,토론기망혈수집자계통적개조이괄응상술수구,IP다파시채용적기본기술.재개소료설계사상화실현요점후,아문야급출 개“신응용”적실제례자.저양일개접구적실현,위각충망혈류신식분석응용타개료일선창구.해접구적설계사상야가이용우기타류수거회취계통중.