计算机工程与科学
計算機工程與科學
계산궤공정여과학
COMPUTER ENGINEERING & SCIENCE
2014年
3期
404-410
,共7页
罗芳%李春花%周可%黄永峰%廖正霜
囉芳%李春花%週可%黃永峰%廖正霜
라방%리춘화%주가%황영봉%료정상
分类存储%多条件选择查询%关联映射%辅助索引
分類存儲%多條件選擇查詢%關聯映射%輔助索引
분류존저%다조건선택사순%관련영사%보조색인
category storage%multi-conditions selectable query%associated mapping%secondary indexing
传统的Web数据检索一般采用全文检索方法,该方法具有很好的灵活性,但舆情分析往往需要获得相关的网页属性及统计信息.针对传统的Web检索方法无法满足上述需求,基于Hadoop平台设计并实现了一种基于多属性的海量Web数据的关联存储及检索系统,为舆情分析提供基础检索与统计服务.主要实现HDFS上基于属性的网页数据的分类和聚类存储,解决小文件存储同时提高数据访问吞吐量;建立原始网页数据与属性数据之间的关联映射;基于HBase的已有索引机制,结合分布式本地索引机制解决基于HBase的动态属性多条件选择查询的辅助索引问题.
傳統的Web數據檢索一般採用全文檢索方法,該方法具有很好的靈活性,但輿情分析往往需要穫得相關的網頁屬性及統計信息.針對傳統的Web檢索方法無法滿足上述需求,基于Hadoop平檯設計併實現瞭一種基于多屬性的海量Web數據的關聯存儲及檢索繫統,為輿情分析提供基礎檢索與統計服務.主要實現HDFS上基于屬性的網頁數據的分類和聚類存儲,解決小文件存儲同時提高數據訪問吞吐量;建立原始網頁數據與屬性數據之間的關聯映射;基于HBase的已有索引機製,結閤分佈式本地索引機製解決基于HBase的動態屬性多條件選擇查詢的輔助索引問題.
전통적Web수거검색일반채용전문검색방법,해방법구유흔호적령활성,단여정분석왕왕수요획득상관적망혈속성급통계신식.침대전통적Web검색방법무법만족상술수구,기우Hadoop평태설계병실현료일충기우다속성적해량Web수거적관련존저급검색계통,위여정분석제공기출검색여통계복무.주요실현HDFS상기우속성적망혈수거적분류화취류존저,해결소문건존저동시제고수거방문탄토량;건립원시망혈수거여속성수거지간적관련영사;기우HBase적이유색인궤제,결합분포식본지색인궤제해결기우HBase적동태속성다조건선택사순적보조색인문제.