嘉宾|朱洁
编辑|薛梁
数据库作为关键 PaaS 能力,一直顺应业务和技术发展,不停变更和创新。大模型的兴起,对数据库也有深刻的影响,包括通过大模型赋能的 SQL 改写,智能诊断,问答等一系列能力。同时数据库承担基础数据管理的作用,数据库技术如向量数据库,对解决大模型一些幻觉等也起到关键的作用。大模型和数据库技术相互成就,数据库技术在过去的一年内取得非常大的创新和发展,介绍这块关键技术的发展,相信可以帮助到感兴趣的从业人士以及观众朋友。
在2024 年 6 月 14-15 日举办的 ArchSummit 全球架构师峰会深圳站上,我们邀请到了百度数据库产品总架构师朱洁老师来分享数据库和 AI 的发展史以及最新现状,以及百度在数据库和 AI 结合上的关键进展以及实际案例。在会议召开前,我们采访了朱洁老师,帮助读者提前了解到相关的技术落地细节。
InfoQ:您如何看待大模型时代对数据库技术创新的挑战和机遇?对数据库技术的影响主要体现在哪些方面?
朱洁: 大模型对数据库技术带来的机遇是远大于挑战的。传统数据库技术或者大数据技术处理的还是以结构化数据为主,或者要把非结构化数据先预处理成结构化数据才好处理。但事实上,非结构化数据才是最自然,体量最大的数据。大模型技术让非结构化数据有新的处理方法,放大非结构数据的价值,因此也带来了底层数据库更多的发挥空间。
大模型对数据库的影响主要可以从两个方面看,一个是 DB4AI,主要是向量数据库技术。通过向量数据库解决大模型知识更新不及时,幻觉问题,以及缺乏企业内部知识,也无法进行细粒度安全管理等问题。另一个是 AI4DB,通用大模型技术对数据库本身进行优化,主要方向包括数据库自动运维,SQL 生成,SQL 优化,智能问答等等。
总的来说,数据库和大模型肯定是相辅相成,数据库技术在大模型时代有了更大的想象空间。
InfoQ:在大模型的兴起背景下,数据库技术如何适应和应对新的数据处理需求?
朱洁: 大模型技术让非结构化数据有了新的应用空间,数据库变化比较大的是对文本等非结构化数据处理,以及未来甚至图片,视频等多模的数据。
目前这块发展很快,主要包括文本拆分,怎么 Embedding 多模数据,怎么实现多路召回,以及向量引擎通过 GPU ,以及更好数据组织模式来实现高性价比等。
InfoQ:在数据库行业的技术发展中,大模型技术与人工智能的相互作用是如何发挥作用的?
朱洁: 大模型属于人工智能领域的一个重要组成部分。现在一般说大模型是指生成式 AI 技术(GenAI)。
在数据库领域一直使用 AI 技术,传统上主要是一些预测算法,分类算法这些,解决比如运维的问题。大模型诞生之后,在代码生成,知识处理方面相比传统 AI 技术有了革命性提升,但是在一些传统系统运维,调优方面还是传统算法实现更简单,效率更高。
因此大模型技术更多的是在原来的技术的基础上更深入的解决原来不好解决的代码生成,知识管理等。对原有技术是一个非常大的补充,提升和扩展。
InfoQ:您能分享一些数据库和人工智能领域的创新案例,特别是在大模型时代的实际应用?
朱洁: 这块的技术发展很快,各个厂家都在进行相应的尝试和布局。当前比较创新的数据库和大模型结合的案例和应用有:
InfoQ:作为百度智能云数据库产品总架构师,您如何看待数据库和人工智能的结合,在实际业务中取得的关键进展?
朱洁: 首先我们的大模型在业界有领先优势,其次是百度智能云在这方面布局很早,也很全。因此我们目前在这块很有竞争力。我们介绍几个最新的关键的成果:
InfoQ:对于百度在数据库和人工智能结合上的关键进展,您认为最有意义的是什么?
朱洁: 对外部而言,我们致力于为客户提供强大、高性能、稳定可靠的数据库产品,首先通过大模型技术对数据库技术的改造和升级也能帮助客户降低数据库的使用门槛和成本。其次我们提供更好的解决方案和能力套件,帮助客户更快地开发基于大模型的 AI 原生应用,帮助客户更快地应用上 AI 能力,创造新的业务机会。
对内部而言,百度具备优秀的大模型技术和产品,同时也需要优秀的各类配套组件,共同支撑百度智能云构建强大的 AI 原生应用产品和解决方案。数据库技术的努力突破,才能更好的支撑好百度的大模型战略。
InfoQ:在 AI 与数据库的结合中,百度是否有一些特定的技术路径或策略?
朱洁:AI 技术和数据库技术都在快速发展过程中,我们几个主要的策略有:
InfoQ:您对 AIGC 与数据库结合的未来发展有何展望?
朱洁: 这个领域还在一个刚起步和快速发展阶段。我觉得下一个阶段的发展,核心有两点:
InfoQ:在演讲中提到的数据库技术的创新和发展对从业人员和观众朋友意味着什么?ArchSummit 听众能从您的这次演讲中可以获得哪些实际的收益和启发?
朱洁: 数据库作为关键 PaaS 能力,一直顺应业务和技术发展,不停变更和创新。大模型的兴起,对数据库也有深刻的影响,包括通过大模型赋能的 SQL 改写,智能诊断,问答等一系列能力。同时数据库承担基础数据管理的作用,数据库技术如向量数据库,对解决大模型一些幻觉等也起到关键的作用。大模型和数据库技术相互成就,数据库技术在过去的一年内取得非常大的创新和发展,介绍这块关键技术的发展,相信可以帮助到感兴趣的从业人士以及观众朋友。
活动推荐
嘉宾|朱洁
编辑|薛梁
数据库作为关键 PaaS 能力,一直顺应业务和技术发展,不停变更和创新。大模型的兴起,对数据库也有深刻的影响,包括通过大模型赋能的 SQL 改写,智能诊断,问答等一系列能力。同时数据库承担基础数据管理的作用,数据库技术如向量数据库,对解决大模型一些幻觉等也起到关键的作用。大模型和数据库技术相互成就,数据库技术在过去的一年内取得非常大的创新和发展,介绍这块关键技术的发展,相信可以帮助到感兴趣的从业人士以及观众朋友。
在2024 年 6 月 14-15 日举办的 ArchSummit 全球架构师峰会深圳站上,我们邀请到了百度数据库产品总架构师朱洁老师来分享数据库和 AI 的发展史以及最新现状,以及百度在数据库和 AI 结合上的关键进展以及实际案例。在会议召开前,我们采访了朱洁老师,帮助读者提前了解到相关的技术落地细节。
InfoQ:您如何看待大模型时代对数据库技术创新的挑战和机遇?对数据库技术的影响主要体现在哪些方面?
朱洁: 大模型对数据库技术带来的机遇是远大于挑战的。传统数据库技术或者大数据技术处理的还是以结构化数据为主,或者要把非结构化数据先预处理成结构化数据才好处理。但事实上,非结构化数据才是最自然,体量最大的数据。大模型技术让非结构化数据有新的处理方法,放大非结构数据的价值,因此也带来了底层数据库更多的发挥空间。
大模型对数据库的影响主要可以从两个方面看,一个是 DB4AI,主要是向量数据库技术。通过向量数据库解决大模型知识更新不及时,幻觉问题,以及缺乏企业内部知识,也无法进行细粒度安全管理等问题。另一个是 AI4DB,通用大模型技术对数据库本身进行优化,主要方向包括数据库自动运维,SQL 生成,SQL 优化,智能问答等等。
总的来说,数据库和大模型肯定是相辅相成,数据库技术在大模型时代有了更大的想象空间。
InfoQ:在大模型的兴起背景下,数据库技术如何适应和应对新的数据处理需求?
朱洁: 大模型技术让非结构化数据有了新的应用空间,数据库变化比较大的是对文本等非结构化数据处理,以及未来甚至图片,视频等多模的数据。
目前这块发展很快,主要包括文本拆分,怎么 Embedding 多模数据,怎么实现多路召回,以及向量引擎通过 GPU ,以及更好数据组织模式来实现高性价比等。
InfoQ:在数据库行业的技术发展中,大模型技术与人工智能的相互作用是如何发挥作用的?
朱洁: 大模型属于人工智能领域的一个重要组成部分。现在一般说大模型是指生成式 AI 技术(GenAI)。
在数据库领域一直使用 AI 技术,传统上主要是一些预测算法,分类算法这些,解决比如运维的问题。大模型诞生之后,在代码生成,知识处理方面相比传统 AI 技术有了革命性提升,但是在一些传统系统运维,调优方面还是传统算法实现更简单,效率更高。
因此大模型技术更多的是在原来的技术的基础上更深入的解决原来不好解决的代码生成,知识管理等。对原有技术是一个非常大的补充,提升和扩展。
InfoQ:您能分享一些数据库和人工智能领域的创新案例,特别是在大模型时代的实际应用?
朱洁: 这块的技术发展很快,各个厂家都在进行相应的尝试和布局。当前比较创新的数据库和大模型结合的案例和应用有:
InfoQ:作为百度智能云数据库产品总架构师,您如何看待数据库和人工智能的结合,在实际业务中取得的关键进展?
朱洁: 首先我们的大模型在业界有领先优势,其次是百度智能云在这方面布局很早,也很全。因此我们目前在这块很有竞争力。我们介绍几个最新的关键的成果:
InfoQ:对于百度在数据库和人工智能结合上的关键进展,您认为最有意义的是什么?
朱洁: 对外部而言,我们致力于为客户提供强大、高性能、稳定可靠的数据库产品,首先通过大模型技术对数据库技术的改造和升级也能帮助客户降低数据库的使用门槛和成本。其次我们提供更好的解决方案和能力套件,帮助客户更快地开发基于大模型的 AI 原生应用,帮助客户更快地应用上 AI 能力,创造新的业务机会。
对内部而言,百度具备优秀的大模型技术和产品,同时也需要优秀的各类配套组件,共同支撑百度智能云构建强大的 AI 原生应用产品和解决方案。数据库技术的努力突破,才能更好的支撑好百度的大模型战略。
InfoQ:在 AI 与数据库的结合中,百度是否有一些特定的技术路径或策略?
朱洁:AI 技术和数据库技术都在快速发展过程中,我们几个主要的策略有:
InfoQ:您对 AIGC 与数据库结合的未来发展有何展望?
朱洁: 这个领域还在一个刚起步和快速发展阶段。我觉得下一个阶段的发展,核心有两点:
InfoQ:在演讲中提到的数据库技术的创新和发展对从业人员和观众朋友意味着什么?ArchSummit 听众能从您的这次演讲中可以获得哪些实际的收益和启发?
朱洁: 数据库作为关键 PaaS 能力,一直顺应业务和技术发展,不停变更和创新。大模型的兴起,对数据库也有深刻的影响,包括通过大模型赋能的 SQL 改写,智能诊断,问答等一系列能力。同时数据库承担基础数据管理的作用,数据库技术如向量数据库,对解决大模型一些幻觉等也起到关键的作用。大模型和数据库技术相互成就,数据库技术在过去的一年内取得非常大的创新和发展,介绍这块关键技术的发展,相信可以帮助到感兴趣的从业人士以及观众朋友。
活动推荐
本届 ArchSummit 会议上,重点聚焦AI大模型技术在各行业的落地实践, 顺丰集团、众安银行、天弘基金、鸿海科技集团、宁德核电、广发证券、微众银行介绍大模型技术的应用效果 。会议上还设置了大模型应用、架构升级、智算平台、AI编程、成本优化等专题和话题内容。如您感兴趣,可点击
https://archsummit.infoq.cn/2024/shenzhen/?utm_source=headline&utm_medium=art1-0606查看更多详情。购买票数越多,享受的优惠也就越丰厚,可以联系票务经理 17310043226 , 锁定最新优惠。
原文链接:
https://archsummit.infoq.cn/2024/shenzhen/?utm_source=headline&utm_medium=art1-0606