10亿级流数据交互查询，为什么抛弃MyS_c#发展_c#学习

大数据时代，随着数据量的爆炸式增长，对于数据的处理速度要求也越来越高，以往基于MySQL的数据处理方案已无法满足大吞吐、低延迟的写入和高速查询的场景；百分点总结出了一套完整的解决方案，本文就带你一同了解VoltDB在流数据交互查询的应用实践。

流式数据交互查询场景

在百分点，每天有10亿条记录产生，针对这些大量实时产生的数据，不仅要做到实时写入，类似推荐调优、数据验证等查询要在秒级响应。有简单的单条验证，也有几个小时或一天的聚合计算，也有基于几千万/几亿数据表间的联合聚合查询。例如如下SQL查询：

对于前期的MySQL方案，虽然已经根据一定规则做了人工的分库，但是对于上面SQL中的表Event落在单机上的数据量达到几千万，Result表也近千万，在这样的大表之间进行复杂的联合聚合查询，MySQL查下来要花费30分钟左右，甚至更长，或是没响应了。

因此在针对同时要求大吞吐、低延迟的写入和高速查询的场景下，基于MySQL的现存方案完全无法实现。在不放弃SQL语句的便利基础上，经历过多种选型和方案调研，最终选择了VoltDB来解决此类问题。

如上图，线上的全量流量，通过Streaming总线同时到达VoltDB和离线Hive表。不同的是，数据写入VoltDB使用实时方式，写入Hive使用批量方式。新的数据要求在极短的延迟内马上写入VoltDB待查询；批量写入Hive的数据也可以做到小时级以内刷写到对应分区。

VoltDB简介

VoltDB是一种开源的极速的内存关系型数据库，由Ingres和Postgres联合创始人MikeStonebraker带领开发的NewSQL，提供社区版本和商业版本。VoltDB采用shard-nothing架构，既获得了NoSQL的良好可扩展性以及高吞吐量数据处理，又没有放弃传统关系型数据库的事务支持---ACID。

一般VoltDB数据库集群由大量的站点(分区)组成，分散在多台机器上，数据的存储与处理都是分布在各个站点的，架构图如下所示：

如上图，集群有3个节点、每个节点1个站点构成。因此图中的表都只分成3个区，当然也可以分成更多的区，那么一张表在单个节点上则存在多个分区。

具体在使用上涉及以下几个概念：

客户端可以连接集群中任意一个节点，集群中所有节点是对等的，采用的也是水平分区的方式；

每张表指定一个字段作为分区键，VoltDB使用该键采用哈希算法方式分布表数据到各个分区。事实上VoltDB中存在两种类型的表，一种是分区表，还有一种叫做”Replicatedtable”。”Replicated表”在每个节点存储的不是某张表的部分数据，而是全部数据，适用于小数据量的表。

这里我们主要看重分区表，分区表的分区字段的选择很重要，应该尽量选择使数据分散均匀的字段。

VoltDB支持的客户端语言或接口：

C++

Erlang

Java

Python

Node.js

JDBC驱动接口

HTTPJSON接口(这意味着所有能实现

白斑医院有哪些
 北京最好白癜风正规医院

转载请注明原文网址：http://www.helimiaopu.com/cxkf/2450.html