HTAP:数据库新趋势,能否取代Oracle?

发表时间: 2020-04-02 17:05

11 月 17 日,金山办公登陆科创版,圆了小米集团创始人、金山软件董事长雷军和金山所有员工的“英雄梦”。算下来,从 1999 年以金山办公为业务主体准备上市算起到今天,雷军足足等了 20 年。

WPS 上市之际,除了引起了人们关于办公软件市场和前景的热烈讨论之外,还牵扯出人们对另一个更加深刻的问题——国产化软件及其安全可靠性的思考。受益于国产化趋势,WPS 的 PE 估值升至 35 倍,维持“买入”评级。正如天云数据 CEO 雷涛所说,这背后的深层次原因,核心实际上在于国内要“去 office”的趋势,所以,这个沉寂了多年,几乎被边缘化的办公软件产品才得以抖落尘埃,涅槃重生。

至于这款国产办公软件的水平,在虎扑论坛上大多数网友表示比较满意,有人认为与微软 office 相比,WPS 具有体积更小,比微软办公软件更安全的优势,甚至发出了“华人之光”的感慨。从中可以看到,只要功能、安全性等有保障,国人似乎非常乐于支持国产化。

“国产化”、”去 IOE”,国产浪潮来袭

在 IT 国产化浪潮下的影响下,“去 IOE”这个概念逐渐流行起来。这一概念最早由阿里巴巴提出,其本意是,在阿里巴巴的 IT 架构中,去掉 IBM 的小型机、Oracle 数据库、EMC 存储设备,代之以自己在开源软件基础上开发的系统。去 IOE 意味着接下来政府必须将数据安全牢牢掌握在国内企业手中,以防止数据丢失造成的一系列严重后果。

具体来说,去 IOE 还有以下两个解释:

第一个是指 IT 架构的更新换代,具体说就是以 IBM 为代表的主机、以 ORACLE 为代表的关系型数据库,以及以 EMC 为代表的高端存储设备,被新型的云计算技术所替换,也就是我们常说的“云化”。其中,主机被X86设备所取代,传统数据库被开源数据库产品替换,而SAN结构的高端存储也受到云化的存储产品和体系的冲击。这三方面中任何一项工作,都可以被冠以“去IOE”的具体表现。

第二个是指针对外国 IT 设备,特别是美国产品的“严打”,减少甚至不再购买 IBM、ORACLE、EMC 等企业的产品。

2008 年阿里提出去 IOE 时不少人觉得是痴人说梦,但经过多年运营,阿里云已经彻底完成了去 IOE 工作,即阿里云的硬件投入彻底抛弃了这三家传统企业,经历几次双十一的挑战之后该技术也趋于成熟。

HTAP概念横空出世

值得注意的是,这“去 IOE”中的“O”,乃是真正实现国内 IT 技术独立的关键所在,即去除对以 Oracle 为代表的关系型数据库的依赖,如 Oracle、SQLServer、Sybase、Informix、Access、DB2、MySQL 等。

由于关系型数据库具有保持数据的一致性(事务处理),以标准协议为前提,数据更新的开销很小,可以进行Join等复杂查询等特点,一直是数据库领域的关键一环。

多年以来,国内企业多使用这些国外数据公司主导的数据库产品,很少有一款产品能够与之抗衡。

直到2005 年,Gartner提出了 HTAP(Hybrid transactional/analytical processing,在线事务处理/在线分析处理数据库)这一概念,并迅速成为引起一些企业的关注,被很多人视为未来数据库领域发展趋势之一。

2014 年,Gartner 对 HTAP 数据库给出了明确的定义,HTAP 数据库需要同时支持 OLTP 和OLAP 场景。基于创新的计算存储框架,在同一份数据上保证事务的同时支持实时分析,省去了费时的 ETL 过程。

与传统 IT 架构有一些事务处理需要联机分析和分开处理不同,HTAP 数据库能够在一份数据上同时支撑业务系统运行并做 OLAP 场景,这样就避免在传统架构中,在线与离线数据库之间大量的数据交互。

它会代替 Oracle 吗?

既然 HTAP 有这样的优势,它能够替代 Oracle 吗?

数据资源发生变化的当今时代,生产数据发生了哪些变化?数据消费者随之发生了什么改变?数据架构、计算、信息发生了哪些改变?带着这些疑问,CSDN 采访了天云数据 CEO 雷涛,请他来谈一谈关于 HTAP 和大数据技术的那些事。

记者:在从 IT 向 DT 时代的转换过程中,产品和技术得以飞速发展,行业需求或痛点发生了哪些变化?

雷涛:回到刚才 WPS 的故事。我们看到,WPS 上市代表一种国产化的趋势,WPS 替代了Windows Office,但事实上真是 WPS 做端到端的复制替代 Windows 吗?从我作为一个消费者的体验上来看,我个人会在手机上和 pad 上使用像印象笔记这样的软件,不再使用编辑软件了,我不再关注到底用粗体还是斜体来排版,我关注的是,拿起任何一个设备,它都是同步的,能够保持信息的一致性。所以真正替代 OA 的升级,并不是找到一个完整的 Word 的替代品——WPS,而是找到了下一代产品大的迭代需求。

而这个大的迭代需求,就是我们针对“去O”这个问题,我们做了一两个大型商业银行的 Oracle 替代,但很快发现,它的真实市场并不是点对点替代,而是在整个需求发生升级迭代的过程里出现一个新的消费市场,即 Oracle 在做的是几百万条交易规格的强一致性,不仅是性能,更重要的是数据的移动性、计算框架的变化,比如我们的联机事务同时要做大规模并行计算。以前大数据挖掘的机器学习也要跑到这个数据平台,对计算场景的通用性、即时性和全量数据的这些要求都是传统架构无法适应的。我们现在看到的更多的是,不是替代 Oracle,而是如何升级 Oracle 的市场需求,即我们所说的混布数据库。

记者:“去IOE”开始,有关数据库国产化的话题就一直是市场关注的焦点,您认为国产数据库的安全可靠如何量化,据了解很多银行、政府的关键业务还在用外企的产品,国产数据库的破局点在哪?

雷涛:之前,从运营商到银行核心系统,大的架构都垄断在西方的 IOE(IBM、Oracle、EMC)这三座大山里,而“去 IOE”,最难的是去“O”。

记者:为什么要提 HTAP?天云数据的 HTAP 产品 Hubble 会直接替代 Oracle 吗?

雷涛:不是不可能。数字中心的核心交易系统,我们已经在银行实施,实现了 Oracle 最贵的一体机的替代。

记者:有没有实际落地、应用的行业案例可以分享?

雷涛:用一个案例的数据可以说明。我们的切入点是以金融为核心的系统。现在,混布数据库处理其中超过两千的核心表,400 多亿条交易数据,56 个在线服务交易,满足了 500 个用户并发,500 毫秒的交易响应,每天的在线交易额,包括柜台、手机银行、网银,两百多万,占整个 A 类银行核心系统交易种类的10%。现在,国内少数几家商业银行都换成分布式系统了,但还都是在 MySQL 开源体系中,我们是唯一一个在分布式的 New SQL 下面去做的。这个是“去 IOE” 最根本和彻底的。

记者:替换成本银行承担得起吗?

雷涛:就是谁愿意先尝试创新,这个系统已经在银行上线了三年,但是银行很低调。很多人以为银行的信息化比互联网慢,但其实不是这样。我们原来做互联网和运营商,每天新增交易规模1700 亿记录,就觉得已经是包打天下了,到银行,一个交易跨一千多张表的复杂度、关联度,动辄四千多行 SQL 语句一个交易,而且交易规则是非常复杂的,所以,银行不仅数据规模量大,而且银行体系还面临着银监会的监督,不容出错,对于交易系统的投资大太多了。

记者:OLAP(On-Line Analytical Processing,联机分析技术)和 OLTP(on-line transaction processing,联机事务处理)真的是资源矛盾的需求么?

雷涛:现在国内外有企业在做新型的 HTAP 产品,事实上是在解决联机事务和密集计算,以前TP、AP 是分开场景来算, 必须做选择,鱼和熊掌不可兼得。

AP 的操作和 TP 操作的矛盾在存储里早就有表达,存储的SPC性能设计只能满足其一,AP 就像我选一个大巴来接人,来一支球队,我派一辆大巴全接走了,而 TP 就像是一辆随叫随走的礼宾车,每来一个人,派一辆高档的礼宾车把人接走,它对随机访问能够即时服务和响应,讲究服务质量和高并发,但是不讲究吞吐和带宽。所以,AP 是体量的计算的复杂度问题,它可以容忍服务的下降,而 TP 是强调高并发服务的低延迟响应,以及强一致性的事务保证。似乎在存储上也是这样,它的底层也是Random IO和sequence IO,这两个随机的和持续的连续 IO,完全是两套矛盾的服务,为什么最后出现了像 EMC、cymatrics、HDS 的 HP 的 XP 高端旗舰级存储,它就是把这个问题拆解,可配置量化,一个高端存储可以进行内部位图设计的定制化,还可以互相调整和Balance,做复制时可以基于位图的元数据控制,而不用动真实的数据,所以旗舰级存储轻量、快速,能满足多种目标。所以融合型产品最终体现在企业高端上可控和可被颗粒化。

HTAP 提的这个方案就是这样,纵观 Google 的技术发展历程,从最早的 Big Table 就是基于HDFS 这种模式,它特别适合 AP,即有大规模数据吞吐,但它是批处理操作,到后来的F1 Spanner架构,基于 Paxos 协议,密集同步,强一致性保护,它开始逐渐地拆解得非常细,也就是在 HTAP 场景下,我们会把控制的颗粒度,如整个交易的IO流程和交易流程拆到不同的层级,从如何做存储,每一张表对应 AP 和 TP 场景的问题和存储,到调度层等逐渐分解。Impala 的 AP 做得很好,但是为什么不能解决并发?因为它是进程级的,没有拆解到线程,线程就可以控制到很微小的颗粒度,可以解决并发和很多资源调度问题。然后再往上的逻辑层,基于MVCC机制和像 Raft 这样的协同机制,可以在交易逻辑层来完成更细颗粒度的表达。这很像十年前,旗舰级存储出现时能适应不同的场景,满足不同的需求。

————————————————

前方高能!「2020 AI 开发者万人大会」强势来袭!此次大会特邀来自微软、英伟达、亚马逊、华为、腾讯、百度、阿里、华为、字节跳动、美团、快手、蚂蚁金服等100+位技术大咖,分享最新AI技术、产品与行业实施案例、技术实践经验与AI未来发展趋势。

心动不如行动!私信发送“优惠码”,即可获取报名地址+优惠码,你将免费获取299元门票一张!!