AI与数据库融合:真正的大一统时代即将来临

发表时间: 2024-06-28 10:00

作者 | 李冬梅

OpenAI 收购数据库公司 Rockset


近日,OpenAI 正式宣布收购 Rockset——这是一款以数据索引及查询功能而闻名的实时分析数据库。OpenAI 在其官方博客上发表的一篇文章中表示,它将整合 Rockset 的技术来“为其所有产品的基础设施提供支持”。



Rockset 团队的成员将加入 OpenAI,而 Rockset 的现有客户也将“逐步”离开 Rockset 平台。完整文章如下:


AI 技术有望改变个人和组织运用自身数据的方式,也正因如此,我们(OpenAI)决定收购 Rockset。Rockset 是一款领先的实时分析数据库,可提供国际一流的数据索引与查询功能。

Rockset 使得用户、开发人员及企业在使用 AI 产品及构建智能化应用程序时,能够更好地运用自身数据并访问实时信息。

我们将整合 Rockset 技术以支持 OpenAI 的跨产品检索基础设施,收购完成后 Rockset 旗下卓越的团队成员也将加入 OpenAI。

OpenAI 公司首席运营官 Brad Lightcap 介绍称,“Rockset 的基础设施能够帮助企业客户将其数据转化为可操作的情报。我们很高兴能够将 Rockset 的底层技术整合进 OpenAI 产品,从而为客户提供更多助益。”

Rockset 公司 CEO Venkat Venkataramani 也指出,“我们很高兴加入 OpenAI,通过为 AI 方案引入强大检索功能的形式,帮助用户、企业及开发人员得以充分利用其数据。”

Rockset 功能的整合工作已经启动,敬请期待更多后续消息。


此次收购中的财务条款细节尚未披露。


Rockset 由前 Facebook 工程师 Venkat Venkataramani 和 Tudor Bosman 以及数据库架构师 Dhruba Borthakur 于 2016 年共同创立,提供基于云的实时分析数据库,允许开发人员构建数据密集型应用程序。值得注意的是,这支团队构建了 RocksDB,这是 Google LevelDB 的一个分支,LevelDB 是由 Jeff Dean 亲自编写的可嵌入 NoSQL 数据库


Venkat Venkataramani 担任创始人兼 CEO,曾任 Facebook 基础设施团队的工程总监,所带领的团队为 15 亿用户管理在线数据服务;更早之前,Venkat 在甲骨文公司担任主要技术人员,同样从事数据库工作。



Dhruba Borthakur 是公司联合创始人兼 CTO,他也同样在 Facebook 从事过数据库工作,还是 Hadoop 分布式文件系统的创始工程师之一,以及开源 Apache HBase 项目的贡献者。



Tudor Bosman 担任公司架构负责人,他硕士毕业于斯坦福计算机系,也曾在 Facebook 工作过多年,是 Facebook 搜索引擎 Unicorn 的领导者,还曾在甲骨文、谷歌等公司担任软件工程师。



多年来,Rockset 产品不断从 Kafka、MongoDB、DynamoDB 和 S3 等产品中提取和索引数据,从而实现无需预定义架构的实时查询。Rockset 使用开源 RocksDB 持久键值存储作为基础,充当 OLTP 数据库、数据湖和流媒体平台的外部二级索引。这可以加速实时分析查询并为主要事务系统提供性能隔离。


Rockset 的数据库平台支持推荐引擎、物流跟踪仪表板等,以及与 OpenAI 特别相关的金融科技和电子商务等领域的聊天机器人。


据 Crunchbase 数据显示,在被收购之前, Rockset 已成功从 Icon Ventures、Sequoia 和 Greylock 等投资者手中筹集了超过 1.175 亿美元的资金。该公司还拥有 Meta 和 JetBlue 等知名客户,这些客户将 Rockset 用作其航班延误预测聊天机器人的组件。

OpenAI 为何决定收购 Rockset?


此次收购 Rockset 是 OpenAI 继 Global Illumination 之后进行的第二笔公开收购,Global Illumination 是一家总部位于纽约的初创公司,利用人工智能构建创意工具和基础设施。


OpenAI 为何会收购 Rockset 技术?收购完成后,OpenAI 会用 Rockset 的技术构建什么?


OpenAI 在文章中表示收购 Rockset 是为其自家跨产品检索基础设施提供支持。由此可以明确看出,对实时数据的访问和处理技术已经成为当前 AI 军备竞赛中的重要一环。此外,OpenAI 也将通过收购 Rockset 吸纳一支经验丰富的实时分析专家团队,为 OpenAI 的能力增强贡献力量。


简而言之,OpenAI 是想将其内部的各个大模型“扎根”在公司的数据上,这也许可以帮助减少其大模型的幻觉或更容易对针对任意数量的业务用例对模型进行微调。


Venkataramani 也在随公告发布的博客文章中给出了 Rockset 融入 OpenAI 后的发展规划预览:“像 Rockset 这样的先进检索基础设施将使 AI 应用更加强大和实用,”他写道。“Rockset 将成为 OpenAI 的一部分,并为 OpenAI 产品套件的检索基础设施提供支持。我们将帮助 OpenAI 解决 AI 应用大规模面临的数据库难题。”


对于 OpenAI 此次的大手笔收购,有分析人士认为,这笔收购其实是从本质上说明了向量数据库无法真正地解决“人工智能内存”问题


从去年开始,与向量数据库相关的话题一直很火热,几乎每个向量数据库厂商都试图以“LLM 记忆”进行营销。但事实可能并非如此。有声音认为,向量数据库只是 LLM 的便签,可帮助用户查找一些信息。目前市面上还没有真正出现一个可重复的堆栈来将所有数据(结构化或非结构化)传输到企业需要的运营和分析存储中。


人工智能需要的内存形态是一种类似于人类的记忆的东西,人类的记忆不只是记住事情,还会把这些记忆总结并将它们相互联系——在使用之前进行分析。通用实时数据库是最接近这一点的东西


OpenAI 知道这一点,并希望开发这个适合企业的堆栈。利用数据库的廉价和高效的计算来卸载一些昂贵且缓慢的人工智能模型计算是件令人兴奋的事,而 OpenAI 似乎正在朝着这个方向努力。


此次收购也在 Hacker News 引发了广泛讨论。有用户认为:“RAG 更像是一个概念,而不是一个规范。RAG 不会阻止在传统数据库中添加向量索引和相似性搜索技术的潮流。这证实了传统数据库(OLAP 或 OLTP)不会消失。在所有 LLM 模型背后,仍然需要数据库中真实、权威的数据,以避免(或至少最小化)幻觉问题。无论如何,人工智能需要更多程序化的方法来获取这些数据。”


曾就职于甲骨文数据库公司、现任国内某开源分布式数据库公司副总裁的 Pine 表示:


“此次收购说明 OpenAI 这样的大模型供应商已经认识到,当大模型要在企业中落地时,要解决好两个问题:第一个是数据的实时分析问题,这就要求数据库有很高的实时性,第二个是要解决多模态向量检索问题。

也就是说,大模型要服务企业级应用时需要一个有云原生扩展能力、能提供实时性服务和向量搜索能力的混合型实时分析数据库。而这种情况下,纯粹的向量数据库在面对海量的、时效性要求高的、非结构化数据时优势就没有那么明显了。

收购大局已定,Rockset 用户需要做何准备?

对于当前使用 Rockset 产品的用户来说,时间已经相当紧迫。根据该公司发布的 FAQ 内容来看,所有未签订合同的按月付费用户必须在 2024 年 9 月 30 日之前退出。虽然签约客户将有权与自己的 Rockset 客服团队具体协调合适的退出计划,但全体客户必须尽快为 Rockset 物色替代方案已经成为不争的事实。面对板上钉钉的收购,各位 Rockset 用户必须提前想好下一步规划。



Rockset 用户可以采取以下措施进行应对:

  1. 评估自己的当前使用情况及要求:最好先做到心中有数,确保在评估替代方案前了解自己需要什么,这能为我们节省大量时间。
  2. 搜集功能相当或者更好的替代平台:您的业务需求可能很简单、可能极复杂,具体取决于您此前使用 Rockset 的方式。每种平台都有其优势和短板,请整理出平台在稳定支持您业务时至少应当具备的功能和特性,避免浪费宝贵时间评估那些根本无法满足您性能及功能需要的解决方案。
  3. 着手规划迁移流程,以避免对正常运营造成干扰:无论您选择了开源方案还是商业产品,对其背后支持能力或社区建设情况的评估都至关重要。请寻找一家能手把手指导您完成概念验证的合作伙伴,或者确定您打算选择的开源产品拥有全天候活跃、足以帮助您完成故障排查的技术社区,这一切将成为顺利迁移乃至未来长久应用的必要前提。


Rockset 用户有哪些方案可选?


在制定下一步计划时,Rockset 用户应当探索每一种替代方案的合理性,根据企业自身的特定用例与性能需求,不同平台提供的功能配伍也各有适用范围。下面几个重要选项可以作为参考:

面向实时分析 SQL 工作负载的开源选项:


  • Apache Druid: Druid 是一款高性能实时分析数据库,可在大规模、高强度负载下对流式及批量数据执行亚秒级查询。
  • ClickHouse: ClickHouse 是一款速度出色的开源列式数据库管理系统,允许使用 SQL 查询实时生成数据分析报告。
  • StarRocks: 非常适合运行可扩展的 JOIN 查询,并可在无需非规范化管线的情况下实现实时分析。凭借开箱即用的实时数据更新支持,StarRocks 能够直接在其列式存储上为可变数据提供秒级更新支持。
  • Apache Doris:Apache Doris 是一款高性能的开源实时数据仓库,支持大规模实时数据上的极速查询分析。相较于 Rockset,Apache Doris 同样支持实时数据更新、行列混存、半结构化 JSON 数据分析以及倒排索引和全文检索的能力,能满足高并发数据服务、实时报表分析、即席查询、湖仓一体以及日志存储分析等多个场景的需求。


面向实时分析 SQL 工作负载的专有(商业)托管解决方案:


  • Imply: 具有企业级服务支持的云端托管版 Apache Druid。
  • CelerData: 云托管版 StarRocks,由 StarRocks 项目的发起者和维护者提供支持。
  • SelectDB:SelectDB 是基于 Apache Doris 构建的现代化数据仓库,提供了全托管的云原生实时数仓服务 SelectDB Cloud 和私有化部署模式的 SelectDB Enterprise 两种产品形态。


开源向量搜索 (VectorDB):

  • Weaviate: Weaviate 是一款开源向量数据库,可存储对象及向量,允许将向量搜索与结构化过滤相结合,具备云原生数据库的容错性及可扩展性。
  • Milvus: 面向下一代 AI 应用的云原生向量数据库及存储方案。
  • Qdrant: 面向下一代 AI 的高性能、大规模向量数据库。

托管向量搜索 (VectorDB):

  • SingleStore: 除 SQL 功能之外,SingleStore 还提供托管向量搜索功能,这也使其成为适合两类工作负载的综合性解决方案。
  • Zilliz: 作为 Milvus 的同门师兄弟,Zilliz 提供向量搜索托管服务,在继承 Milvus 优势的同时提供额外的支持和维护保障。
  • Pinecone: 一套完全托管的向量搜索平台,可简化向量搜索应用程序的部署和扩展,确保高可用性及性能水平。


迁移工作已经迫在眉睫,各位用户需要确保自己的关键基础设施始终保持完整及稳定运行。不同平台各有优势,需要实际开展评估以确保成功迁移。


参考链接:

https://web.swipeinsight.app/posts/openai-acquires-rockset-to-enhance-real-time-analytics-and-retrieval-capabilities-7788

https://starrocks.medium.com/rockset-is-acquired-by-openai-what-does-it-mean-for-its-users-3fa9561979d2

https://techcrunch.com/2024/06/21/openai-buys-rockset-to-bolster-its-enterprise-ai/

https://www.singlestore.com/blog/openai-acquires-rockset/

原文链接:AI和数据库真正的大一统时代要来了?OpenAI突然收购实时分析数据公司Rockset,剑指AI内存_生成式 AI_李冬梅_InfoQ精选文章