揭秘大模型时代：AI与数据库技术的革命性融合

发表时间: 2024-06-06 08:00

嘉宾｜朱洁

编辑｜薛梁

数据库作为关键 PaaS 能力，一直顺应业务和技术发展，不停变更和创新。大模型的兴起，对数据库也有深刻的影响，包括通过大模型赋能的 SQL 改写，智能诊断，问答等一系列能力。同时数据库承担基础数据管理的作用，数据库技术如向量数据库，对解决大模型一些幻觉等也起到关键的作用。大模型和数据库技术相互成就，数据库技术在过去的一年内取得非常大的创新和发展，介绍这块关键技术的发展，相信可以帮助到感兴趣的从业人士以及观众朋友。

在2024 年 6 月 14-15 日举办的 ArchSummit 全球架构师峰会深圳站上，我们邀请到了百度数据库产品总架构师朱洁老师来分享数据库和 AI 的发展史以及最新现状，以及百度在数据库和 AI 结合上的关键进展以及实际案例。在会议召开前，我们采访了朱洁老师，帮助读者提前了解到相关的技术落地细节。

InfoQ：您如何看待大模型时代对数据库技术创新的挑战和机遇？对数据库技术的影响主要体现在哪些方面？

朱洁： 大模型对数据库技术带来的机遇是远大于挑战的。传统数据库技术或者大数据技术处理的还是以结构化数据为主，或者要把非结构化数据先预处理成结构化数据才好处理。但事实上，非结构化数据才是最自然，体量最大的数据。大模型技术让非结构化数据有新的处理方法，放大非结构数据的价值，因此也带来了底层数据库更多的发挥空间。

大模型对数据库的影响主要可以从两个方面看，一个是 DB4AI，主要是向量数据库技术。通过向量数据库解决大模型知识更新不及时，幻觉问题，以及缺乏企业内部知识，也无法进行细粒度安全管理等问题。另一个是 AI4DB，通用大模型技术对数据库本身进行优化，主要方向包括数据库自动运维，SQL 生成，SQL 优化，智能问答等等。

总的来说，数据库和大模型肯定是相辅相成，数据库技术在大模型时代有了更大的想象空间。

InfoQ：在大模型的兴起背景下，数据库技术如何适应和应对新的数据处理需求？

朱洁： 大模型技术让非结构化数据有了新的应用空间，数据库变化比较大的是对文本等非结构化数据处理，以及未来甚至图片，视频等多模的数据。

目前这块发展很快，主要包括文本拆分，怎么 Embedding 多模数据，怎么实现多路召回，以及向量引擎通过 GPU ，以及更好数据组织模式来实现高性价比等。

InfoQ：在数据库行业的技术发展中，大模型技术与人工智能的相互作用是如何发挥作用的？

朱洁： 大模型属于人工智能领域的一个重要组成部分。现在一般说大模型是指生成式 AI 技术（GenAI）。

在数据库领域一直使用 AI 技术，传统上主要是一些预测算法，分类算法这些，解决比如运维的问题。大模型诞生之后，在代码生成，知识处理方面相比传统 AI 技术有了革命性提升，但是在一些传统系统运维，调优方面还是传统算法实现更简单，效率更高。

因此大模型技术更多的是在原来的技术的基础上更深入的解决原来不好解决的代码生成，知识管理等。对原有技术是一个非常大的补充，提升和扩展。

InfoQ：您能分享一些数据库和人工智能领域的创新案例，特别是在大模型时代的实际应用？

朱洁： 这块的技术发展很快，各个厂家都在进行相应的尝试和布局。当前比较创新的数据库和大模型结合的案例和应用有：

智能问答：通过大模型技术解决数据库运维问题，DBA 值班等。
代码生成 & 翻译：自然语言到 SQL（NL2SQL），或者把一种 SQL 翻译成另外一种，典型的 Oracle 翻译成 MySQL 之类。
SQL 优化：改写、注释、纠错、解释，补全
智能问数：自然语言询问，内部通过大模型转成 SQL，查询出结果，然后大模型再总结以报表，报告形式展示出来。

InfoQ：作为百度智能云数据库产品总架构师，您如何看待数据库和人工智能的结合，在实际业务中取得的关键进展？

朱洁： 首先我们的大模型在业界有领先优势，其次是百度智能云在这方面布局很早，也很全。因此我们目前在这块很有竞争力。我们介绍几个最新的关键的成果：

发布了 VectorDB 1.0，向量数据库是企业不可或缺的知识库核心组件，它针对传统知识库问答系统遇到的性能瓶颈、维护挑战及规模限制等问题提供了有力解决方案。全新发布的百度向量数据库 VectorDB 1.0，不仅集成了全面的运维控制和安全防护能力，还兼容了千帆、LangChain 等主流生态系统，能够帮助企业轻松管理数以千万计的文档知识，最大支持百亿向量存储规模以及毫秒级的向量检索速度。同时，相比同类型开源产品，VectorDB 1.0 性能最高提升 10 倍。
发布了数据库智能驾驶舱（Database Smart Cockpit，DBSC），这个服务是利用大模型技术解决数据库运维，安全，智能问答的能力。通过内置的百度文心大模型能力，再加上百度积累的数据库运维知识库等，帮助用户回答云原生数据库 GaiaDB、MySQL、Redis 等数据库产品的各种使用场景复杂问题，以及显著降低异常问题定位时间，以及提升 SQL 优化效率等。目前这个服务在百度内部已经成功帮助 DBA 团队降低超过 50% 的运维工作量。

InfoQ：对于百度在数据库和人工智能结合上的关键进展，您认为最有意义的是什么？

朱洁： 对外部而言，我们致力于为客户提供强大、高性能、稳定可靠的数据库产品，首先通过大模型技术对数据库技术的改造和升级也能帮助客户降低数据库的使用门槛和成本。其次我们提供更好的解决方案和能力套件，帮助客户更快地开发基于大模型的 AI 原生应用，帮助客户更快地应用上 AI 能力，创造新的业务机会。

对内部而言，百度具备优秀的大模型技术和产品，同时也需要优秀的各类配套组件，共同支撑百度智能云构建强大的 AI 原生应用产品和解决方案。数据库技术的努力突破，才能更好的支撑好百度的大模型战略。

InfoQ：在 AI 与数据库的结合中，百度是否有一些特定的技术路径或策略？

朱洁：AI 技术和数据库技术都在快速发展过程中，我们几个主要的策略有：

坚持技术和场景结合的原则：技术只有和场景深度结合，才容易成熟，以及真正解决问题。因此我们对大模型的应用并不追求尝鲜，一定是选择可以和场景深度结合，各方面条件成熟，以及内部深度使用之后再给到我们的客户。
坚持技术的普惠的原则：普惠核心意味着要让更多用户，更多场景可以使用。对数据库技术来说主要体现在两点：首先我们在设计的时候就会基于通用硬件去设计，云上，云下都可以部署，大客户，小客户都能用。这个体现在我们的 VectorDB，DBSC，GaiaDB 等多个产品中。另外一个核心是坚持起步门槛低，为了让更多用户用到，我们 VectorDB，DBSC 目前都提供了免费版本，让用户可以直接使用。也欢迎大家到百度智能云上选择相应的免费版本，体验最新大模型加持的能力。
坚持开放的原则：除了我们自研之外，我们也非常欢迎更多的第三方厂商和我们一起共建，或者集成我们的产品。

InfoQ：您对 AIGC 与数据库结合的未来发展有何展望？

朱洁： 这个领域还在一个刚起步和快速发展阶段。我觉得下一个阶段的发展，核心有两点：

已有产品的成熟，随着技术发展，使用者越多，会更催熟当前的产品，更深度的解决客户实际场景问题。
多模态支持：当前技术处理文本为主，未来多模态的能力会越来越强，也会在这个基础上诞生更多的应用。

InfoQ：在演讲中提到的数据库技术的创新和发展对从业人员和观众朋友意味着什么？ArchSummit 听众能从您的这次演讲中可以获得哪些实际的收益和启发？

朱洁： 数据库作为关键 PaaS 能力，一直顺应业务和技术发展，不停变更和创新。大模型的兴起，对数据库也有深刻的影响，包括通过大模型赋能的 SQL 改写，智能诊断，问答等一系列能力。同时数据库承担基础数据管理的作用，数据库技术如向量数据库，对解决大模型一些幻觉等也起到关键的作用。大模型和数据库技术相互成就，数据库技术在过去的一年内取得非常大的创新和发展，介绍这块关键技术的发展，相信可以帮助到感兴趣的从业人士以及观众朋友。

活动推荐