数据库创新:基础软件皇冠上的璀璨明珠

发表时间: 2022-11-02 15:09

提到数据库可能很多人会很陌生,但是数据库应用却渗入我们生活的方方面面,像12306抢票、网上购物、扫码点餐、抢红包等都离不开数据库的支持,可以说数据库是支撑各类应用软件运行的基础,因此数据库一直以来也被誉为基础软件上的皇冠明珠,与操作系统并驾齐驱

回溯数据库发展历程,从追随模仿国外到国产化自研,中国数据库行业历经二十余年技术深耕,发展进化,如今正呈现百花齐放新局面。而这一现象背后有赖于国家数字经济技术飞升与国内多样化场景与技术应用发展。尤其是以信创为契机,为广大数据库厂商提供了有力的生长发展环境。

自从2020年信创被正式提出后,信创产业发展加速落地,作为信创产业链上重要环节的数据库,经历了在金融和政企等行业的多轮试点推广后,中国数据库行业终于迎来属于自己的黄金时代

数据统计,目前全球数据库企业共计有363家,以中美为主,其中美国有145家,中国次之有116家。另外,据中国信通院测算,2020年中国数据库市场规模约241亿元,占全球数据库市场规模的5.2%。预计到2025年,中国数据库市场规模将达688亿元,年复合增长率为23.4%

伴随着中国数据库行业的发展壮大,加之国产替代化热潮催化,目前国内数据库厂商已逐渐成为能与国外巨头厂商相匹敌之势。腾讯云数据库副总经理王义成曾在接受采访时表示,目前国产数据库90%的能力已经成长到可与Oracle等老牌国外数据库比肩的程度。

诚然,在近几年国家大力发展数字经济大背景下,数据库市场一改过去被国外巨头垄断的局面,逐渐显现后发优势,尤其当下数据库在国内多场景应用需求爆发,国外传统数据厂商弊病凸显,价格配置昂贵,海量数据的储存、处理遭遇瓶颈、稳定性与安全性等方面都面临极大挑战。而此时,创新数据库厂商经历了漫长的技术积累和蛰伏期,如今终于可以大放光彩。

值得一提的是,当下涌现出一大批优秀的创新数据库厂商,正在依托大数据、云计算等新兴技术实现弯道超车,针对上述传统数据厂商的弊病与痛点,结合本地企业对数据库的实际需求,他们给出了新的解题思路。

以下是钛媒体通过广泛征集和筛选出来的创新数据库不同场景应用案例,通过对案例的详细复盘,以期为更多企业带来数据应用新思考和数字化转型新思路,

场景一:开源分布式HTAP数据库 助力地产企业实现业务高效互联

成立于2015年的PingCAP是国内领先的企业级开源分布式数据库厂商,云原生和开源是其身上两大最为显著的标签。旗下主打产品 “TiDB”是一款开源分布式HTAP数据库,结合了传统的 RDBMS 和 NoSQL 的最佳特性。同时还兼容 MySQL,支持无限的水平扩展,具备强一致性和高可用性。TiDB 的目标是为 OLTP 和 OLAP 场景提供一站式的解决方案。

2020年以来尤其是后疫情时代,各行业数字化驶入深水区,地产行业也不例外,某头部地产集团在全面开启数字化的过程中,集团原有的数据库系统面临扩容与性能的双重挑战:基于公有云RDS提供的MySQL分库分表方案在业务侧增加了应用开发的复杂度,在运维侧给DBA带来了不少运维和管理工作压力。另外,随着集团商业、智慧服务、租赁等多元业务开展,集团的应用系统开始为B端和C端用户同时提供服务,如何打通各业务系统之间的壁垒,建立“全链路、全场景、全渠道”的数据链接成为集团转型的关键

因此在选择合作数据库厂商时,该集团将开源和云原生作为合作厂商的主要筛选标准,要求数据库具备弹性伸缩能力,能兼容MySQL的同时实现敏捷开发与便捷运维,同时希望数据库具备云原生特性,支持跨云部署。

此外选用开源数据库可灵活进行业务创新,方便IT团队快速上手。综合以上自身需求,该集团经过多重对比测试,最终敲定部署TiDB数据库以满足自身业务需求。

首先集团在公有云上部署两套TiDB集群,用以承载核心业务系统。一方面,TiDB可为企业CRM售卖、租赁、电子商城等业务系统提供高性能的OLTP在线交易支撑,遇到节假日和促销活动等海量数据高发的场景需求,TiDB所具备弹性扩展能力,可确保用户线上线下流畅的购物体验。

另一方面,TiDB可为供销存ERP系统提供财务报表和计算分析,解决了原来表数量巨大,分析时效不达标的问题。对于租赁、商业和电子商城等业务系统需要支持在线交易和实时统计报表同时进行,TiDB HTAP可进行能力提取、处理和分析业务层应用数据,获取实时洞察,以达到为用户提供“千人千面”的创新服务体验。

业务逻辑架构图

其次,TiDB打通了该集团不同业务系统之间的壁垒。集团会员在旗下住宅、购物中心、租赁住房、智慧服务和租售等各类场景中消费或参与活动均可获得积分,10积分抵1元,等级越高,抵扣越多,积分可在集团各业态中使用。

正是基于TiDB的数据同步机制,会员积分在业务系统中实现全面打通,会员在房屋租赁,商场、物业、电子商城等多消费场景的数据都可实时汇总到会员系统中,形成对应积分,助力该地产集团构建了一体化的服务生态闭环。

据了解,在2021年该集团的大促活动期间,有40座城市超百万的会员和2000多家商户参与其中,因其超大力度的积分满赠活动和线上积分红包雨及积分大转盘活动,引发海量消费者和订单涌入系统,数据量达到了平时的10倍以上。但因集团云端部署的TiDB,海量数据存储处理毫无压力。借助TiDB弹性伸缩的特性,集团DBA只需根据预估数据量做好资源规划和配置,提前做足压力测试,确保数据库的存储容量和性能满足需求。借助TiDB通过高可用架构,自动故障切换、弹性扩容机制等技术手段,保证数据可备份,故障可切换,增量扩容,将活动期间的SQL999始终控制在8ms以内,SQL99控制在5ms左右

场景二:Kyligence智能多维数据平台助力金融企业释放数据潜能 赋能业务

Kyligence是一家专注于大数据领域创新的数据科技公司,由Apache Kylin 核心团队于2016年创办,公司致力于打造下一代企业级智能多维数据库,为企业简化数据湖上的多维数据分析(OLAP)。Kyligence通过AI增强引擎从核心业务查询中识别关键特征和模式,并自动构建和管理分布式数据集市,为业务提供更可靠的指标体系,进一步缩短数据湖开发流程,释放业务自助分析潜力。

数字化持续渗透各行业的当下,数字化转型已成为不少行业发展的新引擎和新方向,金融行业尤其银行,作为数据高密度行业,始终走在数字化前沿。某头部股份制银行(以下简称A银行)正值数字化转型的关键阶段,致力于让信息传递变得扁平化、高效流转,降低数据使用的门槛,让数据赋能业务。

但随着数字化转型的持续深入,A银行数字化系统逐渐增多,数据分析师/工程师或是一线业务员使用数据的门槛逐渐提高,系统之间数据孤岛影响数据流通,导致存在部门信息壁垒,银行大量的数据资产无法沉淀并进行高效管理运营,导致银行数据难以赋能业务,数据价值难以实现

为进一步助力A银行数字化转型落地,实现企业数据价值最大化,Kyligence以降低数据使用门槛、打通数字系统壁垒、以数字化提升工作效能为目标,为该银行提供统一多维数据分析平台。据了解,该平台(产品)可为业务分析人员提供低门槛的数据分析环境。其构建分析环境的过程大概可分为启动、成长、拓展、创新四个阶段。

统一多维分析平台的发展阶段

启动阶段:该银行以架构设计和架构集成为目标,完成了整体的架构设计,实现与原有架构的融合。在不影响现有业务的情况,Kyligence 产品与企业架构进行了无缝集成。上至与 BI 展现平台的无缝对接,Kyligence 作为 BI 平台的统一查询入口,实现与Tableau\Cognos\MSTR\MIP(管理信息平台) 等友好集成,将大数据分析能力赋予各个应用系统。下至与大数据平台的融合,充分利用大数据的存储和计算能力,将数据进行预构建,同时与元数据管控平台、ETL 调度、自研 BI 设计器等周边组件进行融合。

Kyligence与企业架构的融合

成长阶段:这一阶段以平台能力建设为目标。通过Kyligence多维数据分析平台,A银行逐步建设并完善了平台的可视化分析、灵活自助分析、租户管理、权限管理等能力,满足多维、明细、实时等多种查询场分析场景,并在小范围的业务场景中进行试点,如绩效平台、用户画像平台、管理信息平台等多个应用对接,承载现有的业务流量,MAU 数量达到百级。

拓展阶段:这个阶段以场景拓展为目标,不断探索适宜的业务场景,并开展相应的推广和培训活动。经过第二阶段的小范围试点取得的经验和成果,引入更多部门加入,将银行数据在企业内部各部门间实现充分的分享、流通,消除信息孤岛,为全行 20 多个部室、80+ 租户提供数据分析服务。

拓展业务场景

创新阶段:这个阶段以稳中求进,开拓创新为目标。首先,在现有平台的基础上,不断完善平台的智能化能力,提升系统的稳定性、查询性能、数据时效性、成本管理等价值服务;其次,在基于逐渐完善的数据中台上,根据市场变化不断探索创新,建设更加完整的数字化运营生态平台。

通过搭建Kyligence 统一多维智能分析平台,A银行实现了数据资产盘活和数据价值整合,降低了银行业务人员使用数据的门槛,实现部门之间数据分享与高效互联,同时为银行提供高性能敏捷的数据分析,极大提高了员工作业效率。

据A银行相关负责人表示,经过这几年Kyligence平台搭建与运营,截至 2021年底,统一多维智能分析平台已为全行 40% 的业务人员提供低门槛的数据分析服务。降低了重复事务,释放生产力,全行机房维护单同比下降 45%;将 IT 人员从繁琐的重复性事务中释放出来,同时数据提取的效率从原先5天缩短至1小时,效率提升了百倍;同时提高人效,缩减开发资源:提升报表开发效率,报表开发周期从原先的5天缩短到1天,研发报表开发投入资源下降幅度超15%。最后,缩短了数据分析周期,将数据分析的平均周期从 5 个工作日下降至小时级,数据分析的效率从原先的24小时级缩短到10秒内,查询性能提升了近万倍,极大提升业务用户的体验

场景三:TigerGraph图计算技术与机器学习结合解决电信行业通信欺诈类难题

TigerGraph是一家企业级可扩展图数据库厂商,旗下TigerGraph是一个基于关联数据(图模型)的高级分析和机器学习平台。基于分布式原生图数据库,TigerGraph可以支持高级分析和机器学习应用,如欺诈检测、反洗钱、实体解析、推荐引擎、知识图谱、网络安全、供应链、物联网和网络分析等。公司的使命是通过图和人工智能为企业基于大数据提供创新的分析能力,帮助客户连接数据孤岛,进行更大规模、更深入的运营分析,从云端和本地的数据中发现新的业务洞察。

移动互联网时代,电信欺诈无处不在,不仅给广大用户带来了财产损失,也让电信公司面临品牌受损、客户流失等风险,另外近几年伴随信息技术的快速发展,电信欺诈手段也随之升级并呈现多样性,让用户防不胜防。而传统的反欺诈解决方案并不能完全应对,尤其对于利用GOIP设备进行多个手机号通话,群发消息、远程控制,从而达到隐藏身份、逃避打击的情况,目前国内案件侦破困难,周期较长。

此外“一人多号”和“实名不实人”情况也在生活中非常普遍,对于国内安防和管理产生巨大挑战。中国移动作为全球网络规模最大、客户数量最多的电信巨头,也深受电信诈骗之害,在与TigerGraph合作的过程中,基于上述电信行业的痛点与难题,TigerGraph通过搭建通信实时反诈系统和运用图分析计算技术分别针对四个场景制定相应的解决方案。具体部署实施如下:

在线通信实时反欺诈:在这个场景中,TigerGraph 为中国移动搭建在线通信实时反欺诈系统,包括黑号识别、模型打分、基于图的特征提取等多个模块。同时TigerGraph图特性可以和机器学习结合,可以做到实时 (毫秒级别) 返回特征收集与模型打分结果,支持图遍历和聚合信息,实现一次遍历收集多种复杂图相关特征,并且可在已有图的基础上增加新的节点和边,使数据结构跟得上业务变化,有效地提高欺诈侦测准确性。

从性能和结果来看,TigerGraph使得在关系型数据库中无法处理的场景得以实现,比如可以:全量处理全省每天所有通话数据,在TigerGraph中生成通话网络图,规模为顶点10亿,边150亿;每日3亿次更新,峰值时每秒1万条边更新,查询平均响应时间0.5s;基于TigerGraph对关系特征的优异计算能力,系统实现了实时(毫秒级)返回118个基于图的特征收集和模型打分结果;2分钟识别恶意号码并推送到消费者,白号准确率99.99%+,黑号准确率80%+。

个性化视频推荐:个性化推荐能力当下已成为数字时代的营销利器,并深入各个行业应用,企业对实时推荐需求也日益增加,中国移动为达到给客户提供实时精准的内容推荐目的,通过TigerGraph搭建知识图谱引入图分析技术深入挖掘用户行为偏好及资讯信息,基于Kakfa Loader获取到用户的实时阅览内容,通过多跳数据分析改进用户细分和推荐引擎,改善了推荐影片的质量。

同时,“实时”响应方面,利用图计算系统可将数据实时传输到Hadoop系统、传统数据库仓库或者其他外围系统。借助TigerGraph 图计算系统,针对点播数据以及用户关系数据进行实时处理,再通过TigerGraph图数据库来计算分析千万级用户的点播特征数据与实时数据关联分析。

一人多号:针对“一人多号”的普遍现象,通过TigerGraph图分析计算技术可以筛出的可疑号码,找出该号码一段时间内的位置轨迹,从而找出那些相同时间段内轨迹拟合度最高的号码。此场景中主要的挑战在于要根据用户一段时间的行为轨迹,比如一个月,基于相似度算法查找出相似的号码。之前该客户用了10倍的硬件资源,都无法得到计算结果,而借助TigerGraph的超高速的计算效率,仅用一台机器便可完成计算任务。

实名不实人:当前电信网络诈骗持续高发的一大根源,就是因为大量“实名不实人”的银行卡、电话卡被骗子购买后实施诈骗。对此,中国移动借助TigerGraph 图计算分析技术,打造了一套专业的系统,包括三个模型,分别是常驻地分析、交往圈分析、同时通话分析模型,这三个模型互为补充,从而可以准确判断号码是办理人在使用,还是办理人的家人在使用,还是转卖给了其他人使用。

上述四个场景共同的底层技术逻辑就是图计算和机器学习结合的创新方式。不管是在线通信实时反欺诈,还是个性化视频推荐、一人多号,还是实名不实人的场景中,都采用的是基于图的特征提取。因此在实时反欺诈中,基于全省级的通话数据,TigerGraph 可以毫秒级返回118个基于图的特征收集和模型打分结果,为机器学习生成新的训练数据来检测电话欺诈,从而很好地提高了机器学习模型的精准度。

同时,基于深度图关联得到的图特征进行机器学习预测时,可以通过对比判断识别“欺诈者”真实身份,大幅地降低了误判比例。最后,基于图特征的收集,即使是面对全省级的通话数据量,TigerGraph 仍然可以做到毫秒级地收集和打分,接近于实时

场景四:TDengine时序数据库满足车企数据存储、查询和扩容需求

涛思数据(TAOS Data)是一家专注时序空间大数据的存储、查询、分析和计算的数据库厂商,近几年公司瞄准日益庞大的物联网数据市场,开发出了拥有自主知识产权、100% 自主可控的开源、高性能、云原生的时序数据库 TDengine,可广泛运用于物联网、车联网、工业大数据等领域。

目前,TDengine 已经演进到 3.0 版本,成为一款真正的高性能、云原生的时序数据库。在云原生的加持下,TDengine 3.0可解决困扰时序数据库发展的高基数难题,支持 10 亿个设备采集数据、100 个节点,支持存储与计算分离,并打造了全新的流式计算引擎,无需再集成 Kafka、Redis、Spark、Flink 等软件,大幅降低系统架构的复杂度,真正成为了一款极简的时序数据处理平台。同时,TDengine 3.0 还将存储引擎、查询引擎都进行了优化升级,进一步提升了存储和查询性能。

作为国内近几年迅速崛起的“新能源三杰”,蔚来汽车为了给用户带来更好的补能体验,在加电基础设施上进行了大量的投入,在全国布局大量的换电充电设备,而为了对这些设备进行高效管理,需要将设备采集数据上报至云端进行存储,并提供实时数据查询、历史数据查询等业务服务,用来做设备监控和分析。

为满足上述业务需求,蔚来在业务最初采用的数据选型是MySQL + HBase,MySQL 存储设备最新实时数据,HBase 存储设备原始数据。但随着换电站和超充站等设备在全国的快速布局,设备数量持续增长,积累的数据越来越多,长时间跨度的数据查询也遭遇瓶颈,加之查询场景不断丰富,HBase 已经无法满足当前业务需要

因此蔚来能源接触了当下流行并且更适合物联网业务领域的时序数据库,在选型最初采用了OpenTSDB,OpenTSDB 是在 HBase 基础上做了优化,其底层技术还是基于 HBase 的,HBase所存在的一些问题,OpenTSDB 依然会有,并不能从根本上解决蔚来能源在数据存储查询上的难题,于是蔚来能源尝试采用时序数据库 TDengine,TDengine 具备的以下特点能够很好地解决其遇到的痛点:

•引入超级表概念对应设备类型,对每个设备创建子表继承超级表,通常相同设备类型的设备数据模型一定相同,通过超级表管理 schema 直接对子表生效,使用上很方便,同时对每个设备建表可以很好地做数据隔离,避免互相影响。

•采用多级存储,不同时间的数据使用不同存储介质,新数据由于经常访问存 SSD 保证效率,老数据存 HDD,节约成本。

•不依赖任何第三方软件,集群安装部署方便,支持灵活扩容。

•可提供多种聚合函数,支持对数据的聚合查询。

之后,蔚来能源做了一系列简单的性能测试,评估其是否能满足自身业务需求,测试结果如下:采用批量写入数据方式,调整合适的单批次数据量大小,使用单机部署(8 核 32 GB,500 GB 存储)默认配置的 TDengine 服务,RESTful API写入方式,在 4k 并发流量下写入没有问题,同时消费积压数据时峰值达到 7 k/s,因为单条消息包含信息量太大,实际处理中会拆分为 30 条写入 TDengine,所以实际写入 QPS 为 210 k/s,比满足同样数据流量的 HBase 集群规模要小不少

测试完毕,蔚来能源随即进行数据迁移,将线上部分设备的数据切换到 TDengine 集群,上线后集群表现稳定。

对比之前使用的 HBase,查询速度提升明显,从使用 HBase 查询单设备 24 小时数据的秒级返回,到使用 TDengine 查询相同数据的毫秒级返回;每天增量数据占用的存储空间相当于原来使用 HBase 时的 50%集群计算资源成本相比使用 HBase 节省超过 60%

TDengine 与 HBase的对比

蔚来能源相关业务负责人评价该项目的应用成果时表示,TDengine 读写性能表现很好,在满足我们业务需求的同时,极大程度节省了计算资源和运维成本,目前尝试 TDengine 的业务场景都比较简单,只是单纯的数据写入和时间范围查询,后续希望可以结合 TDengine 更多进阶功能探索其他可以落地的业务场景。

场景五: AtomData助力制造企业实现产线数据高效流通与分析

石原子科技是国内领先的全场景数据价值服务商,公司基于自研的数据库存储与计算引擎,打造下一代全球领先的企业级云原生实时数仓,为全球客户提供低成本、超大规模、高性能的海量数据处理和分析服务,并可利用公有云中的强大功能创建数据云。

在针对海量数据分析场景中,石原子自主研发的企业级云原⽣数据仓库产品“AtomData”可解决对千亿级数据进行即时的(毫秒级)多维分析、透视和业务探索。同时AtomData具备云原⽣、⾼弹性、⾦融级⾼可⽤、端到端数据安全、兼容MySQL语法和ACID等重要特性,旨在通过构建原⽣于云端并专注于数据仓库的SaaS服务来最⼤化数据价值。

某锂电池制造公司作为业内领先的智能电池科技企业,多年来专注于以智能物联突破动力电池性能与应用边界,打造更多智能场景,让电动汽车参与到碎片化的可再生能源系统。

该集团的三个工厂有独立部署生产制造执行平台MES以及针对温度与湿度的物联网实时采集平台,在其生产运营过程中虽可正常进行数据记录、分析和监测,但三个工厂的数据只能做到简单汇聚,在生产分析时效性、产品质量追溯上面临着巨大挑战,另外由于工厂生产设备较多,核心设备作为产量和品质的关键,运维效率低且成本高,产能的扩张也给车间管理和生产过程管理带来极大难度。品控方面,因生产过程中电池品质极易受环境设备影响,难以把控每道工序各个细节以达到高度的一致性。

针对以上该制造业的痛点所在,石原子重点从设备管理和生产运营两方面入手,对其进行方案设计:

其一是针对设备健康分析,可借助AtomData平台,实现IOT数据与设备健康数据汇聚,自动监测设备运行状态,通过设备运行建模,实现预防性维修提供支撑。

其二是生产运营分析方面,通过SAP与制造执行等系统数据源,对产品、工艺、质量、供应链等数据,进行建模分析,实现生产全流程可视、可溯、可控,助力精益、柔性制造;实现产品质量的全链路分析与质量追溯分析。

实施方案如下:

  • 将三个工厂分别通过专线接入,搭建大数据存储与分析中心,基于安全角度考虑,该中心只能通过工厂专线进行访问,不提供公网访问。
  • 使用数据集成服务,根据调度计划,将三个工厂中的Oracle存量/增量的生产数据、My SQL实时温度/湿度数据同步至AtomData中。
  • 借助ETL工具,对工厂同步过来的数据执行去重等数据清洗,再存入AtomData,设置数据保存180天。此外,借助BI快速实现商业智能,实现精美的效果展示。

在该方案实施过程中的主要难点在于该企业使用的MES平台存量数据量较大(10TB/生产线),实时增量数据一般,并且数据类型较多(包括除了结构化数据「主要来源于ORACLE、MySQL等」,还包括时序数据「温度、湿度;实时呈现最新的时点数据,同时呈现24小时的变化趋势。

而前期通过MySQL来存储、查询效率太低,无法支撑业务场景,非结构化数据「比如,图像图片基本上大于250M,需要对图片打标分析、焊点、设备调参等」),又要实现实时和准实时的分析,才可以满足作业层面的快速调整与优化,因此该企业的核心诉求主要聚焦在数据摄入速度足够快和延迟足够低两个关键点,即:从工厂采集到进入分析应用的数据同步延迟小于1分钟;数据分析的计算时间小于10秒。

最终,通过搭建AtomData数据库,该制造企业成功克服了方案实施难点,不仅成功达成了同步延迟小于1分钟、分析结果小于10秒的预定目标,还实现了设备运维效率提升,通过全过程管控,品质异常处理效率提升,良品率也进一步提高。同时,产品全生命周期端到端集成,决策模式由过去的“经验驱动”向“数据驱动”转变,生产执行效率也大幅度提升。

关于「创新场景50」

钛媒体推出「创新场景50」系列经典实例,遴选全行业优先应用案例,用通俗易懂的语言针对数字化创新实例进行解读汇总。后续将积累内容产品化,建立可检索的企业数字化应用案例库,抹平企业服务供需信息差。

「创新场景50」具备的两个核心价值:

一是发现,经过我们的筛选,发现真正创新且有参考意义的解决方案;

二是翻译,我们要求自己在保证专业视角的同时,更能做到深入浅出。高亮场景中的相同异同、决策因素、实操细节,明确降低场景的理解门槛。

对于入选「创新场景50」的 ToB 企业,意味着你们的解决方案将获得钛媒体的精准曝光。打动更多潜在合作伙伴的同时,顺理成章的放大了品牌势能,让更多受众记住你的品牌创新。

详情见:数字化转型成功的标准是什么?钛媒体将推出「创新场景50」系列经典实例-钛媒体官方网站 (tmtpost.com)