作者 | 李冬梅
近日,OpenAI 正式宣布收购 Rockset——这是一款以数据索引及查询功能而闻名的实时分析数据库。OpenAI 在其官方博客上发表的一篇文章中表示,它将整合 Rockset 的技术来“为其所有产品的基础设施提供支持”。
Rockset 团队的成员将加入 OpenAI,而 Rockset 的现有客户也将“逐步”离开 Rockset 平台。完整文章如下:
AI 技术有望改变个人和组织运用自身数据的方式,也正因如此,我们(OpenAI)决定收购 Rockset。Rockset 是一款领先的实时分析数据库,可提供国际一流的数据索引与查询功能。
Rockset 使得用户、开发人员及企业在使用 AI 产品及构建智能化应用程序时,能够更好地运用自身数据并访问实时信息。
我们将整合 Rockset 技术以支持 OpenAI 的跨产品检索基础设施,收购完成后 Rockset 旗下卓越的团队成员也将加入 OpenAI。
OpenAI 公司首席运营官 Brad Lightcap 介绍称,“Rockset 的基础设施能够帮助企业客户将其数据转化为可操作的情报。我们很高兴能够将 Rockset 的底层技术整合进 OpenAI 产品,从而为客户提供更多助益。”
Rockset 公司 CEO Venkat Venkataramani 也指出,“我们很高兴加入 OpenAI,通过为 AI 方案引入强大检索功能的形式,帮助用户、企业及开发人员得以充分利用其数据。”
Rockset 功能的整合工作已经启动,敬请期待更多后续消息。
此次收购中的财务条款细节尚未披露。
Rockset 由前 Facebook 工程师 Venkat Venkataramani 和 Tudor Bosman 以及数据库架构师 Dhruba Borthakur 于 2016 年共同创立,提供基于云的实时分析数据库,允许开发人员构建数据密集型应用程序。值得注意的是,这支团队构建了 RocksDB,这是 Google LevelDB 的一个分支,LevelDB 是由 Jeff Dean 亲自编写的可嵌入 NoSQL 数据库。
Venkat Venkataramani 担任创始人兼 CEO,曾任 Facebook 基础设施团队的工程总监,所带领的团队为 15 亿用户管理在线数据服务;更早之前,Venkat 在甲骨文公司担任主要技术人员,同样从事数据库工作。
Dhruba Borthakur 是公司联合创始人兼 CTO,他也同样在 Facebook 从事过数据库工作,还是 Hadoop 分布式文件系统的创始工程师之一,以及开源 Apache HBase 项目的贡献者。
Tudor Bosman 担任公司架构负责人,他硕士毕业于斯坦福计算机系,也曾在 Facebook 工作过多年,是 Facebook 搜索引擎 Unicorn 的领导者,还曾在甲骨文、谷歌等公司担任软件工程师。
多年来,Rockset 产品不断从 Kafka、MongoDB、DynamoDB 和 S3 等产品中提取和索引数据,从而实现无需预定义架构的实时查询。Rockset 使用开源 RocksDB 持久键值存储作为基础,充当 OLTP 数据库、数据湖和流媒体平台的外部二级索引。这可以加速实时分析查询并为主要事务系统提供性能隔离。
Rockset 的数据库平台支持推荐引擎、物流跟踪仪表板等,以及与 OpenAI 特别相关的金融科技和电子商务等领域的聊天机器人。
据 Crunchbase 数据显示,在被收购之前, Rockset 已成功从 Icon Ventures、Sequoia 和 Greylock 等投资者手中筹集了超过 1.175 亿美元的资金。该公司还拥有 Meta 和 JetBlue 等知名客户,这些客户将 Rockset 用作其航班延误预测聊天机器人的组件。
此次收购 Rockset 是 OpenAI 继 Global Illumination 之后进行的第二笔公开收购,Global Illumination 是一家总部位于纽约的初创公司,利用人工智能构建创意工具和基础设施。
OpenAI 为何会收购 Rockset 技术?收购完成后,OpenAI 会用 Rockset 的技术构建什么?
OpenAI 在文章中表示收购 Rockset 是为其自家跨产品检索基础设施提供支持。由此可以明确看出,对实时数据的访问和处理技术已经成为当前 AI 军备竞赛中的重要一环。此外,OpenAI 也将通过收购 Rockset 吸纳一支经验丰富的实时分析专家团队,为 OpenAI 的能力增强贡献力量。
简而言之,OpenAI 是想将其内部的各个大模型“扎根”在公司的数据上,这也许可以帮助减少其大模型的幻觉或更容易对针对任意数量的业务用例对模型进行微调。
Venkataramani 也在随公告发布的博客文章中给出了 Rockset 融入 OpenAI 后的发展规划预览:“像 Rockset 这样的先进检索基础设施将使 AI 应用更加强大和实用,”他写道。“Rockset 将成为 OpenAI 的一部分,并为 OpenAI 产品套件的检索基础设施提供支持。我们将帮助 OpenAI 解决 AI 应用大规模面临的数据库难题。”
对于 OpenAI 此次的大手笔收购,有分析人士认为,这笔收购其实是从本质上说明了向量数据库无法真正地解决“人工智能内存”问题。
从去年开始,与向量数据库相关的话题一直很火热,几乎每个向量数据库厂商都试图以“LLM 记忆”进行营销。但事实可能并非如此。有声音认为,向量数据库只是 LLM 的便签,可帮助用户查找一些信息。目前市面上还没有真正出现一个可重复的堆栈来将所有数据(结构化或非结构化)传输到企业需要的运营和分析存储中。
人工智能需要的内存形态是一种类似于人类的记忆的东西,人类的记忆不只是记住事情,还会把这些记忆总结并将它们相互联系——在使用之前进行分析。通用实时数据库是最接近这一点的东西。
OpenAI 知道这一点,并希望开发这个适合企业的堆栈。利用数据库的廉价和高效的计算来卸载一些昂贵且缓慢的人工智能模型计算是件令人兴奋的事,而 OpenAI 似乎正在朝着这个方向努力。
此次收购也在 Hacker News 引发了广泛讨论。有用户认为:“RAG 更像是一个概念,而不是一个规范。RAG 不会阻止在传统数据库中添加向量索引和相似性搜索技术的潮流。这证实了传统数据库(OLAP 或 OLTP)不会消失。在所有 LLM 模型背后,仍然需要数据库中真实、权威的数据,以避免(或至少最小化)幻觉问题。无论如何,人工智能需要更多程序化的方法来获取这些数据。”
曾就职于甲骨文数据库公司、现任国内某开源分布式数据库公司副总裁的 Pine 表示:
“此次收购说明 OpenAI 这样的大模型供应商已经认识到,当大模型要在企业中落地时,要解决好两个问题:第一个是数据的实时分析问题,这就要求数据库有很高的实时性,第二个是要解决多模态向量检索问题。
也就是说,大模型要服务企业级应用时需要一个有云原生扩展能力、能提供实时性服务和向量搜索能力的混合型实时分析数据库。而这种情况下,纯粹的向量数据库在面对海量的、时效性要求高的、非结构化数据时优势就没有那么明显了。
对于当前使用 Rockset 产品的用户来说,时间已经相当紧迫。根据该公司发布的 FAQ 内容来看,所有未签订合同的按月付费用户必须在 2024 年 9 月 30 日之前退出。虽然签约客户将有权与自己的 Rockset 客服团队具体协调合适的退出计划,但全体客户必须尽快为 Rockset 物色替代方案已经成为不争的事实。面对板上钉钉的收购,各位 Rockset 用户必须提前想好下一步规划。
Rockset 用户可以采取以下措施进行应对:
Rockset 用户有哪些方案可选?
在制定下一步计划时,Rockset 用户应当探索每一种替代方案的合理性,根据企业自身的特定用例与性能需求,不同平台提供的功能配伍也各有适用范围。下面几个重要选项可以作为参考:
面向实时分析 SQL 工作负载的开源选项:
面向实时分析 SQL 工作负载的专有(商业)托管解决方案:
开源向量搜索 (VectorDB):
托管向量搜索 (VectorDB):
迁移工作已经迫在眉睫,各位用户需要确保自己的关键基础设施始终保持完整及稳定运行。不同平台各有优势,需要实际开展评估以确保成功迁移。
参考链接:
https://web.swipeinsight.app/posts/openai-acquires-rockset-to-enhance-real-time-analytics-and-retrieval-capabilities-7788
https://starrocks.medium.com/rockset-is-acquired-by-openai-what-does-it-mean-for-its-users-3fa9561979d2
https://techcrunch.com/2024/06/21/openai-buys-rockset-to-bolster-its-enterprise-ai/
https://www.singlestore.com/blog/openai-acquires-rockset/
原文链接:AI和数据库真正的大一统时代要来了?OpenAI突然收购实时分析数据公司Rockset,剑指AI内存_生成式 AI_李冬梅_InfoQ精选文章