云原生技术助力实现“数据库大数据一体化”,鱼与熊掌兼得

发表时间: 2020-10-26 15:26

允中 发自 凹非寺
量子位 编辑 | 公众号 QbitAI

10月23日数据湖高峰论坛上,阿里巴巴集团副总裁、阿里云智能数据库产品事业部负责人、达摩院数据库与存储实验室负责人李飞飞表示:“云原生作为云计算领域的关键技术与基础创新,正在加速数据分析全面进入数据库大数据一体化时代”。

阿里巴巴集团副总裁、阿里云智能数据库产品事业部负责人李飞飞

他表示,随着数字化转型进程深入推进,企业的数据存储、处理、增长速度发生了巨大的变化,传统数据分析系统在成本、规模、数据多样性等方面面临很大的挑战。云计算的发展正在加速推进数据分析系统进入“数据库大数据一体化”时代,以更好得帮助企业加速迈入数字原生时代加速业务数智化。

传统数据分析系统和技术面临巨大挑战

近年来,企业数据需求呈现出海量、数据类型多样化、处理实时化、智能化等新特点,对数据分析系统提出了弹性扩展、结构化/半结构化/非结构化海量数据存储计算、一份存储多种计算及低成本等核心诉求。

而传统商业化数据仓库及大数据技术,因存在扩展性、建设维护成本、系统复杂读等一系列挑战,无法很好得满足业务诉求。例如,大量企业需要对数据进行离线ETL计算、机器学习及多维度查询分析等多种计算时,使用大数据技术或传统数据仓库,企业需要组合使用多种技术产品,通过复杂的数据集成、数据冗余来满足多样的计算诉求,整个技术架构复杂且数据冗余成本高。

云原生重构数据处理架构,加速向“数据库大数据一体化”演进

针对企业面临的分析困境,是否有一种新型数据分析技术和架构能够高效解决海量数据深度计算分析的业务诉求?答案是肯定的,李飞飞表示,下一代数据分析演进方向是“以云原生为基础,在离线一体化技术融合,实现数据库大数据一体化”。

随着云计算的发展,计算存储解耦、资源池化、Serverless、流批一体等核心基础技术正在加速数据分析系统向“数据库大数据一体化”演进。“数据库大数据一体化”的云原生数据分析系统能够很好得提供弹性扩展、海量存储、多种计算及低成本等能力,有效解决海量数据深度计算分析的业务分析和创新诉求。

其实,“数据库大数据一体化”也是业界近年的发展趋势,Gartner及业界多个产品都在朝这个趋势演进:

  • Microsoft SQL Server 在2018年9月发布的SQL Server 2019预览版中宣布通过深度集成Spark与Hadoop提供端到端的数据处理解决方案。
  • AWS Redshift及Snowflake均提供离线ETL处理、多维度交互式分析、实时增删改查的一体化的产品能力。

同时,2019年6月,全球知名咨询公司Gartner发布了一篇名为“There is only one DBMS Market“的报告,报告指出过去,因为性能需求不同,根据业务场景按照分析型和交易型需求,需要独立发展OPDBMS和DMSA,而未来分析型和交易型数据操作对技术架构依赖性会更小,将不再需要独立区分OPDBMS和DMSA,未来通过一体化的数据处理技术即可满足绝大部分诉求。

从技术架构演进过程来看,数据处理发展经历了四个重要阶段:

  • 60年代,关系数据库之父E.F.Codd博士提出了关系模型,促进了联机事务处理(OLTP)的发展,诞生了如Oracle、DB2等数据库帮助核心业务如银行实现在线交易的普及。
  • 1993年,关系数据库之父E.F.Codd博士提出多维数据库、多维分析的概念以及十二条准则,认为OLTP已不能满足终端用户对数据库查询分析的性能需求,SQL对大型数据库进行的简单查询也不能满足终端用户分析的多样性要求,促进了在线分析处理(OLAP)的发展,出现了MOLAP(Multidimensional OLAP)、ROLAP(Relational OLAP)、HOLAP(Hybrid OLAP)计算模型和引擎,诞生了如IBM Cognos、Oracle Essbase、Greenplum等数据仓库帮助业务实现海量数据存储、建模、业务分析探索的普及。
  • 2003~2006年,Google发表《The Google File System》、《MapReduce:Simplified Data Processing on Large Clusters》、《Bigtable:A Distributed Storage System for Structured Data》三篇海量数据存储、处理重要论文,促进了大数据技术的飞速发展,诞生了如Hadoop HDFS、Hadoop MapReduce、Tez、HBase、Spark、Flink等为代表的分布式文件系统、分布式计算框架、分布式宽表存储系统,加速了大数据应用向5V(Velocity、Volume、Variety、Value、Veracity)方向发展和普及。
  • 2012年至今,随着云计算的发展,云计算的资源池化、存储与计算弹性扩展等基础设施升级以及计算存储分离、在离线一体化等技术创新,促进了数据处理开始朝一份数据开放计算、存储计算分离的云原生方向演进,诞生了如Snowflake、AWS Redshift、AWS Aurora、AWS Athena为代表的新一代云原生数据库、数据仓库、数据湖,加速了数据处理向在线化、在离线一体化、结构化与非结构容和处理演进,加速业务走向数字化、数智化创新的新形态。

李飞飞表示,“数据库大数据一体化”的数据分析系统应该具备如下特征:

1、云原生,数据分析系统需要支持强大的弹性扩展能力,根据业务负载动态扩展计算资源,提供大规模数据处理能力,有效满足数据分析性能诉求的同时,降低分析成本。

2、一份存储多种计算,数据分析系统必须支持在一份存储数据上兼容多种计算,包括实时增删改查、多维度交互式分析、离线ETL及机器学习。通过一份存储支持多种计算的特性,避免了数据计算过程中的数据搬迁,简化了数据分析过程,降低分析成本。

3、海量存储,支持结构化、半结构化及非结构化数据库的存储及计算。随着IOT/移动网络的发展,半结构化/非结构化数据占比越来越高,数据分析系统需要支持这些数据的低成本存储及计算,助力企业充分挖掘并发挥数据价值。

4、全面兼容数据库生态,数据分析系统需要提供并兼容数据库接口协议,且支持数据库上下游生态,降低数据分析门槛,让开发人员会数据库就会大数据。

基于“数据库大数据一体化”的演进趋势,阿里云推出了以云原生数据仓库AnalyticDB及云原生数据湖分析DLA为核心的云原生数据分析系统。深度融合数据库及大数据技术,为企业提供一体化的数据接入、数据存储、数据计算及数据分析解决方案,让会数据库的用户就会大数据。

云原生数据仓库AnalyticDB让开发人员“会数据库就会大数据”

为满足企业计算分析多元化的诉求,阿里云于2013年开始研发并推出云原生数据仓库AnalyticDB。基于云构建,秉承“数据库大数据一体化”的理念,AnalyticDB为用户提供了新一代的数据分析系统,有效解决当前企业数据分析痛点。AnalyticDB具备如下优势:

  1. 离在线一体化,AnalyticDB提供离线ETL及多维度交互式分析的多样化计算能力。通过存储服务化、MPP+DAG混合计算引擎及混合负载调度等技术,实现一份数据多种计算的能力。且基于智能索引、智能优化器及行列混存等技术,复杂SQL的查询速度相较于传统的数据分析系统快10倍以上。
  2. 云原生,AnalyticDB通过存储计算分离及存储服务化等技术,实现了计算与存储的独立自由弹性。AnalyticDB可以根据业务负载变化动态扩缩计算资源,满足企业数据分析性能诉求的同时,有效控制分析成本。同时,存储服务化后,按存储量付费。
  3. 海量存储,AnalyticDB通过分布式存储、存储服务化及向量计算等多种技术,可以支持结构化、半结构化及非结构化海量数据的存储。同时,AnalyticDB支持冷热数据分层存储。企业可以根据业务的使用情况,做表/分区级别的冷热分离存储,通过对低频访问的冷数据提供低价存储,对于频繁访问的热点数据,采用ESSD存储满足高性能访问,进而保障访问性能的同时,优化整体数据存储成本。
  4. 兼容数据库生态,不同于复杂、高门槛的大数据体系,AnalyticDB高度兼容MySQL、PostgreSQL及Oracle。兼容数据库的客户端及上下游生态,降低数据分析门槛,让开发人员会数据库就会大数据。
  5. 一键建仓,AnalyticDB提供一键建仓功能,企业可以通过一键建仓功能轻松得将数据库及日志数据实时集成至AnalyticDB。

与传统数据分析系统最大的不同是,AnalyticDB基于“数据库大数据一体化”的技术架构,为用户提供一体化的数据分析系统,满足多样化的数据分析诉求,让开发人员会数据库就会大数据。

云原生数据湖分析DLA让数据湖分析进入Serverless时代

近几年数据湖的概念很火,数据湖允许以任意规模存储所有结构化、非结构化及半结构化数据,其中的数据主要用于报告、可视化、增强分析及机器学习等场景。为了实现数据湖的数据可分析,需要解决数据湖构建、元数据构建管理及数据计算引擎对接等问题。为此,阿里云2018年开始布局并推出端到端的数据湖解决方案:云原生数据湖分析Data Lake Analytics(简称:DLA),帮助企业快速构建并高效挖掘数据。

云原生数据湖分析DLA,具备四大优势:

  1. 数据湖管理,DLA提供一站式数据湖管理能力,包括元数据发现、管理及变更,全量及增量数据一键入湖。元数据管理功能可以支持OSS/RDS/Hbase/MongoDB等数据源的元数据自动发现、管理及变更。同时,内置Apache hudi, DLA支持增量数据分钟级入湖,助力企业构建准实时数据湖。
  2. 一份存储多种计算,DLA提供了Presto、Spark两种计算引擎,满足多维度交互式分 析、离线ETL、机器学习等多种计算能力。针对Presto,DLA在资源隔离、高可用及元数据库权限隔离等方面做了极大增强,保障服务稳定性及可靠性。同时,对于Spark计算引擎,DLA实现了数据缓存、元数据访问优化及文件上传优化等,保障计算性能,据测试,在Spark典型ETL Benchmark Terasort,1TB输入数据量的场景下,相较于自建spark,DLA性能提升163%。
  3. Serverless计算分析,DLA基于容器及多租户隔离等技术,提供完全Serverless的计算能力。DLA可以根据Spark Job或Presto SQL动态扩缩计算资源,一分钟可拉起300个计算节点。用户只需按实际运行作业付费,计费精确至秒级,相较于自建系统,性价比提升300%,大大提升数据分析性价比。
  4. 数据库生态兼容性,DLA 完全兼容MySQL的JDBC,兼容MySQL的客户端及上下游生态,降低数据分析门槛,让开发人员会MySQL就会大数据。

到企业中去

阿里云AnalyticDB与DLA自上线以来,已覆盖游戏、广告、文旅、零售、金融、数字政府、运营商等众多行业的企业客户,且覆盖阿里巴巴集团的所有核心业务。据介绍,Yeahmobi利用DLA进行广告业务数据的深度挖掘分析,实现时间、成本、安全、计算效率等方面的优化,综合成本降低大约50%。某大型物流企业,通过AnalyticDB构建企业数据仓库,实现离在线一体化分析架构,支持 2PB数据的存储计算,分析性能大幅提升10倍,实现分析实时化。

未来数据分析系统将全面进入“数据库大数据一体化”时代,阿里云AnalyticDB及DLA将秉承“数据库大数据一体化”理念,持续打造云原生、一体化的数据分析能力,助力企业加速迈入数字原生时代。