计算机系统应用
計算機繫統應用
계산궤계통응용
APPLICATIONS OF THE COMPUTER SYSTEMS
2014年
6期
259-261
,共3页
窦晓峰%陈胜%王熠航%麦联叨%由建宏
竇曉峰%陳勝%王熠航%麥聯叨%由建宏
두효봉%진성%왕습항%맥련도%유건굉
精准化营销%即席查询%海量数据%大数据%查询%Solr集群%分布式索引%分片%B-Tree
精準化營銷%即席查詢%海量數據%大數據%查詢%Solr集群%分佈式索引%分片%B-Tree
정준화영소%즉석사순%해량수거%대수거%사순%Solr집군%분포식색인%분편%B-Tree
precision marketing%ad-hoc query%massive data%big data%query%solr cluster%sharding%B-tree
在电信领域的精准化营销、即席查询业务中,存在着大量针对一张宽表或几张宽表(超过50字段)的随机查询场景。传统处理模式(直接查询数据库)在数据量不大(<1000万)时,查询响应时间可优化到几秒至数十秒级,而当数据量到达几千万、上亿甚至十亿记录以上时,此处理模式无论如何优化或更改索引机制,都无法满足秒级并发查询要求。新的处理模式通过引入分布式 Solr 索引层解决上述问题。索引层预先对数据库记录建立索引,查询不再作用于数据库而直接查询索引层,如此,可大幅提高查询性能。经过对两种处理模式的对比验证,在相同环境下,数据量到达5000万,每秒20并发访问的宽表查询场景,传统处理模式的查询全部超时失败,而使用分布式索引层的查询可以在2秒以内返回,查询全部成功。
在電信領域的精準化營銷、即席查詢業務中,存在著大量針對一張寬錶或幾張寬錶(超過50字段)的隨機查詢場景。傳統處理模式(直接查詢數據庫)在數據量不大(<1000萬)時,查詢響應時間可優化到幾秒至數十秒級,而噹數據量到達幾韆萬、上億甚至十億記錄以上時,此處理模式無論如何優化或更改索引機製,都無法滿足秒級併髮查詢要求。新的處理模式通過引入分佈式 Solr 索引層解決上述問題。索引層預先對數據庫記錄建立索引,查詢不再作用于數據庫而直接查詢索引層,如此,可大幅提高查詢性能。經過對兩種處理模式的對比驗證,在相同環境下,數據量到達5000萬,每秒20併髮訪問的寬錶查詢場景,傳統處理模式的查詢全部超時失敗,而使用分佈式索引層的查詢可以在2秒以內返迴,查詢全部成功。
재전신영역적정준화영소、즉석사순업무중,존재착대량침대일장관표혹궤장관표(초과50자단)적수궤사순장경。전통처리모식(직접사순수거고)재수거량불대(<1000만)시,사순향응시간가우화도궤초지수십초급,이당수거량도체궤천만、상억심지십억기록이상시,차처리모식무론여하우화혹경개색인궤제,도무법만족초급병발사순요구。신적처리모식통과인입분포식 Solr 색인층해결상술문제。색인층예선대수거고기록건립색인,사순불재작용우수거고이직접사순색인층,여차,가대폭제고사순성능。경과대량충처리모식적대비험증,재상동배경하,수거량도체5000만,매초20병발방문적관표사순장경,전통처리모식적사순전부초시실패,이사용분포식색인층적사순가이재2초이내반회,사순전부성공。
In the field of telecommunications precision marketing and ad-hoc query, there are a lot of random queries scenarios on one or more wide-tables (which have more than 50 fields). In the traditional system (the queries are performed on the database directly), the query response time can be optimized less than a few seconds to tens of seconds when the database records size is under 10 million. When the data size reaches tens of millions, hundreds of millions or even more than one billion records, whatever optimization including changing indexing mechanism are unable to meet the second-level concurrency query requirements. In the new query system, we introduce the Solr distributed index layer to solve these problems. The layer will index the database records firstly and queries will access the Solr index layer and not perform on the database directly, therefore, the performance will be improved highly. After a comparison of the two processing patterns in same environment, for the data of 50 million, 20 per concurrent access query scenario, the traditional accessing queries all are timeout; while the other’s queries can be returned within 2 seconds and all are success.