巨杉数据库:十年磨一剑,引领分布式技术新潮流

发表时间: 2022-11-07 10:47

作 者丨江珊

编 辑丨李振


2011年,几位年轻人敲下了第一行代码,并在一年后创立了巨杉数据库。彼时,第三代分布式数据库迎来了商业化落地的元年,海外的Snowflake、Databricks均在这一年成立。


巨杉数据库的创始团队都是数据库行业的“老兵”,来自IBM DB2北美实验室及华为分布式存储核心团队,具备20年的数据库行业经验。团队在成立之初就洞察到,未来数据量的爆发,将对数据的实时可用提出更高的要求,毅然自研分布式数据库内核,当时全球都没有可供参考的成熟产品。


巨杉数据库前瞻布局分布式技术的细分赛道,瞄准大数据实时可用的技术方向,踩中了国内金融银行业的数字化转型节点。创业十年,巨杉服务的大型银行及金融机构超过100家,其中合作时间最长的已有8年。而数字经济也已经成为农业经济、工业经济之后最主要经济形态之一,数据资源正作为关键要素,渗入社会生产的每一个毛孔。


“在数字化时代,数据成为新的‘石油、电能’,分布式数据库将大大提升数据挖掘和应用的效率,释放全量数据价值。”近日,巨杉数据库(下称:巨杉)公司副总裁兼董秘陈晓静在接受南方财经全媒体记者采访时表示,“就好比工业化时代的燃油发动机以及电机,数据库技术就是让数据发挥价值的关键工具。数字化没有天花板,那么数据库也没有。”


(巨杉数据库公司副总裁兼董秘陈晓静。受访者供图)


陈晓静判断,中国基础软件行业正迎来黄金时代,数据库产品既需要企业长期投入与积累,也需要政府、企业、客户一起聚焦新兴业务,打造数据库行业生态,一起发展才能站稳脚跟。



押注“大数据+实时”新赛道



陈晓静介绍,巨杉一开始就选择金融银行领域,是因为金融银行严监管、高标准、高要求的特性,是最适合打磨产品的行业。


而2013年前后,正是中国传统银行业加快布局线上零售业务,正面迎接互联网金融冲击的关键节点。银行业加快上马掌上银行、无纸化柜台、远程银行等项目,交易业务也呈现出金额小、频率高、场景全覆盖、实时反馈要求高等全新特点。巨杉的“多模”“实时”“全量”的数据管理功能迎合了这一转型需求。


巨杉的“多模”功能,即能够支持结构化、半结构化、非结构化的数据存储,帮助银行唤醒了海量沉睡的存储内容,为进一步的数据挖掘分析打开了空间。


以个人客户办理开户业务为例,在客户填写开户表格、提交身份证明材料、预录人脸信息等过程中,银行收集了图片、音频、视频、文字、数字等信息。在过去,很多图像、音频内容分散在不同的业务系统中,难以统一管理,在集中式架构下也面临扩展成本高、无法实时查询和调用的问题,大量有价值的内容只能静静地散落在某个储存器内。


巨杉通过多模的能力,实现了数据统一管理、实时查询和调用,为后期机器学习、数据调取和应用提升了效率。在全球银行监管趋严的当下,多模数据功能更可以支撑客户信息交叉查验分析,为金融安全工作保驾护航。


目前,巨杉已经为银行内部的核心下移流水查询平台、全量数据平台、非结构化数据平台、影像系统平台等多个系统提供数据库服务,覆盖国有大行、股份制银行、省级农信社、城商行、保险、证券、监管机构等100多家金融银行客户。其中,单客户最大规模的集群达到400台物理服务器,超过1.4万亿行记录,数据量达到数PB级别;稳定运行巨杉数据库最长时间的客户业务长达8年。



十年持续聚焦技术和行业



中国数字经济的迅猛发展,为信息技术产业创造了巨大风口,覆盖基础硬件(芯片、服务器等)、基础软件(操作系统、数据库、中间件等)应用软件(OA、ERP、办公软件等)和信息安全等领域,并在政务、科技、通讯、金融、医疗等终端有广阔应用。


在软件产业链中,数据库和操作系统、中间件并称为三大基础软件。如今在大数据时代,众多企业对数据库的依赖程度也愈发高,其市场规模也在高速发展。据中国信息通信研究院测算,中国数据库2021年市场规模约合305.8亿元,占全球5.2%,预计在未来5年增速保持20%以上,并在2023年增速达到峰值30%,市场规模接近500亿元。


风口之上,巨杉选择聚焦技术和行业。10年来,巨杉始终坚持“两个聚焦”,一方面聚焦分布式技术,一方面聚焦金融银行业。伴随金融行业过去10年对数据需求的发展,巨杉数据库在技术方面从“多模数据湖”,到“实时数据湖”,再到“湖仓一体”,持续进行技术架构的升级。


目前,巨杉数据库技术广泛应用于金融、证券、保险、政府、能源、电信、交通等领域,企业总数超过1000家,其中在金融银行业付费客户已经超过100家。


长久以来,市面上大多数数据库都源于国外,国产优秀数据库数量并不多。这背后的原因既有基础软件人才的稀少也有数据库生态中客户角色的缺失。但随着数据库公司的技术积累、客户积淀,类似巨杉这样的国产数据库厂商也在商业落地上取得进展。


得益于此,巨杉在2020年完成了数亿元的D轮融资,由中金资本领投,元禾重元和越秀产投跟投。公司聚焦于研发创新和团队培养,以及深耕金融银行业实现规模持续扩张。


企查查信息显示,巨杉目前已完成D轮融资。


“创业不应该是赌博,应该是基于长期积累,在洞察未来行业方向和想清楚商业模式之后的持续深耕和聚焦发展。”陈晓静表示,“数据库产品的生命周期非常长,一款IBM在1960年代推出的数据库软件,依靠持续运维服务,它在去年全球还有过亿美元的营业收入。”



深耕中国市场,实现全球领跑



“在数据库领域,中国企业可能过去是在跟跑,但是在分布式数据库,特别是‘湖仓一体’赛道上,我们与全球企业是同步起跑,得益于中国数字经济规模更大、应用面更广,我们在部分技术领域已经实现领跑。”陈晓静因此形容中国基础软件行业正迎来“黄金时代”,巨杉将扎根中国创新,助力中国的数据库技术走向世界。


从全球来看,湖仓一体已成为大数据深化发展的方向,各独立厂商积极推动湖仓一体的产品建设。过去,数据仓库缺乏对多元化数据的管理能力和数据深度分析能力,而“数据湖”能够对结构化数据、半结构化数据、非结构化数据等多类型原始数据的无差别存储,但是仍存在对存储对象缺少加工、查询性能较弱等短板。


据介绍,“湖仓一体”可打破数据仓库/数据湖独立建设的架构局限,满足海量数据无差别存储、实时查询、流式分析等需求,降低企业数据管理成本,提升运营效率。Snowflake、Databricks、巨杉则是“湖仓一体”这条新赛道上同步的领跑者。巨杉作为最早投入产品研发及商用的厂商之一,先后被艾瑞咨询、IDC选为“湖仓一体”代表厂商。


在“湖仓一体”赛道上,巨杉在海量数据下的实时查询能力,已经领先业界。


陈晓静介绍,公司已率先在超过万亿级数据量的生产系统中,稳定提供高达一万并发压力下、百毫秒内查询响应能力。比如一家使用巨杉的大型银行查询五年流水的历史数据只需要几秒钟,其他银行则还需要数分钟以上。


“2017年,道琼斯报道称:‘中国移动支付规模达美国的90倍,领跑全球’。巨杉在银行领域实战十年,这些经验打磨了巨杉的持续创新,在海量多模数据的实时处理能力上,我们部分技术已经领先于全球同行。”陈晓静说。


在终端应用的规模化效应之外,巨杉也期待着产业生态的逐步完善。


陈晓静认为,数据库的发展不但需要技术的创新迭代,同时也需要建立良好的技术生态。在产业生态方面,巨杉积极推动行业标准、团标及生态联盟的建设,致力于建设一个开放的基础软硬件企业级生态,特别是已经与鲲鹏、飞腾、海光、麒麟、统信等厂商的200多款上下游产品完成了互认证。


在最新发布的《国务院关于数字经济发展情况的报告》中,巨杉也看到了数字产业化、产业数字化的更多机会。陈晓静相信,底层技术进步虽然周期更长,但是能够带动上层应用创新产生质变,随着国内付费软件的市场接受度更广、软件专利的保护力度更强、产业生态更完善,巨杉也将在深耕金融银行服务的基础上,深度参与更多产业的数字化进程。

聚焦专精特新、隐形冠军等高成长企业样本,寻迹大湾区产业创新密码,透视大湾区城市发展活力。南方财经全媒体集团“2022湾区100家高成长企业大型全媒体深调研报道”重磅发布!




总指挥丨邓红辉

学术顾问 丨陶锋

统筹丨于晓娜、杜弘禹

新媒体统筹丨丁青云

策划丨李振

记者丨江珊

文字编辑丨李振

广州系列联合调研机构丨广东省创业投资协会

出品丨南方财经全媒体集团

E N D

本期编辑 黎雨桐 实习生 林曦莹