向量数据库的崛起:AI大模型引领全球行业图谱?

发表时间: 2023-07-24 10:04

作者 | 吴思瑾、王与桐

大模型的火热,不仅让生成式AI的创业公司成为全球的关注对象,也带动了一个曾经沉寂行业的崛起。

截至6月,2023年全生成式 AI 模型初创公司的平均估值已经接近 1 亿美元,是2022年的两倍以上;仅在中国,截至6月,参数规模在10亿以上的大模型总数量就已经达到79个。当众多从业者都急切投身于这个改变时代的机遇,自然也会底层基础设施也提出更高要求。

因此,作为大模型创业公司、AIGC创业公司的基础设施——向量数据库——经历了此前几年的“门前冷落鞍马稀”,如今面对来自资本、客户的关注,似乎终于迎来“出头之日”。

来源:Google Trends

在Google Trends上搜索Vector Database(向量数据库),可以看到从2023年3月之后,全球对其的关注度呈直线上升。

在今年4月,全球5家知名向量数据库纷纷获得融资,这更加印证了向量数据库在生成式AI时代的价值。

向量数据库是什么?为什么会随着大模型的快速发展而爆发?在全球范围内,有哪些向量数据库可以给大模型创业公司提供更好地帮助

本文,36氪试图对国内外好用、知名的向量数据库公司进行梳理,希望能帮助AI从业者和创业者。

Mapping速览-36氪整理

向量数据库:行业大模型的必经之路

首先我们需要厘清,向量数据库在大模型当中扮演的角色是什么。

大模型虽然能回答一般性问题,但在垂直领域服务中,其知识深度、准确度和时效性有限。而利用向量数据库结合大模型和自有知识资产,可以构建垂直领域的AI能力。向量数据库存储和处理向量数据,提供高效的相似度搜索和检索功能。

越来越多的大模型从业者认为,所有的行业都值得被AI重新做一遍,因此,建立在不同行业的垂直大模型,成为大家的切入点。而向量数据库是行业大模型具备“行业knowhow”能力的必经之路。

这背后是,AI大模型的产生,需要经历大量反复的训练和调试,但其中进行训练的数据,并非“搬运”即可,会出现两种情况:一是图片、视频、自然语言等多模态的非结构化数据查找需求变大,非结构化数据的数据量级也远大于结构化数据;二是大模型支持的token数有限,配合RLHF拥有了“短暂记忆”,也时常会出现“一本正经的胡说八道”的情况,如果大模型可以具有“长期记忆”,应用范围会很快从通用走向垂直领域。

但在现实世界里,非结构数据反而是“主流”。根据Gartner的数据,非结构化数据占企业生成的新数据比例高达90%,并且增长速度比结构化数据快三倍。

向量数据库和传统数据库的不同点之一是,传统的数据库只能处理计算机容易了解和处理的数据、字符串等结构化数据,通过点查和范围查进行精确匹配,输出只有符合查询条件和不符合条件的答案,而向量数据库处理的是各种AI应用产生的非结构化数据,通过近似查进行模糊匹配,输出的是概率上的提供相对最符合条件的答案,而非精确的标准答案。

举例来说,传统数据库做图片检索可能是通过关键词去搜索,向量数据库是通过语义搜索图片中相同或相近的向量并呈现结果。理论是向量之间的距离越接近,就说明语意越接近,效果也有最相似。

不同点之二是,和传统数据库直接处理数据不同,向量数据库在使用过程中需要把输入实时转化为向量之后才能进行查找,也就是说在查找开始之前有一个向量搜索引擎处理的过程。具体来说,人们先通过向量搜索引擎将非结构化数据转化为特征向量,通过向量把结构化数据变得统一化。之后,再在向量数据库中进行存储、计算和建立索引。

总结而言,大规模生成式 AI 模型的崛起进一步推动了对向量数据库的需求,是因为向量数据库具备以下特点:容纳海量数据、实现准确的相似性搜索和匹配、支持多模态数据处理。

目前向量搜索引擎和向量数据库是两个产品,他们互为支撑,缺一不可。当下知名的向量搜索引擎有hugging face和towhee,知名的向量数据库下文36氪会详细介绍。

向量数据库mapping

向量数据库市场格局,图源网络

Pinecone:

https://www.pinecone.io

成立于2019年。

最近一轮融资:2023.4 B轮 1亿美元

Pinecone是一家成立于美国的向量数据库初创公司,产品名称是Pinecone Alternate,目前非常火的AutoGPT就集成了它的产品。Pinecone也是OpenAI的合作方,用户可以通过OpenAI的Embedding API生成语言嵌入,然后在Pinecone中为这些嵌入建立索引,以实现快速且可扩展的向量搜索。公司有1500个客户,2022年ARR达数百万美元,计划在今年年底前将团队扩大至150人以上。

Weaviate MongoDB:

https://weaviate.io

成立于2019年。

最近一轮融资:2023.4 B轮 5000万美元。

Weaviate总部位于荷兰阿姆斯特丹,产品是一款名为Weaviate MongoDB的托管/自托管向量数据库,可存储多达数十亿个向量;在今年早些时候,Weaviate推出了ChatGPT的Plug in插件;此外,公司业务还包括Weaviate云服务——为开发人员提供Weaviate数据库的全部功能,而无需任何操作开销。目前Weaviate的开源下载量达到200万次。

Weaviate获得过 OpenAI 官方的推荐,推荐语中其实就清晰地解释了 Weaviate 和 Pinecone 的差异:Pinecone 的服务是完全交给他们和 AWS/GCP 托管的,包括数据存储和资源管理;而Weaviate 则把这项任务交给用户 self-host,自己提供支持性的运营和服务。对于不愿意将数据完全交出去、希望有自主控制权的用户来说,Weaviate 的方式更加灵活,但也需要相对大的时间成本。

Chroma

www.trychroma.com/

最近一轮融资:2023.4获得1800万美元种子轮融资,除了机构投资者外,Chroma还获得了MongoDB、Scale、Hugging Face、Jasper等公司创始人或高管的投资,受到了整个生成式AI生态的欢迎。

Chroma是一个基于向量检索库实现的轻量级向量数据库,内置了入门所需的一切,并提供了简单的API。它目前只支持CPU计算,但可以利用乘积量化的方法,将一个向量的维度切成多段,每段分别进行k-means,从而减少存储空间和提高检索效率。它还可以与LangChain集成,实现基于语言模型的应用。Chroma的优点是易用、轻量、智能,缺点是功能相对简单、不支持GPU加速。后续 Chroma 还会推出托管产品(Serverless 类产品),该产品将提供无服务器存储和检索功能,支持向上和向下扩展,让开发者开箱即用不需要自己搭建基础设施。

Zilliz Milvus

https ://milvus.io/

最近一轮融资:2022.8 B+轮 6000万美元。

Zilliz专注于研发面向AI应用的向量数据库系统,旗下有开源产品Milvus、商业产品Zilliz Cloud等,被广泛应用于计算机视觉、NLP、推荐系统、搜索引擎、自动驾驶和生物制药等领域。Milvus是一款分布式向量云原生数据库,能提供数百亿条向量数据的毫秒级查询。得益于Milvus的云原生架构,Zilliz Cloud实现了多租户能力。官方显示,目前Milvus已经拥有超过1000+企业用户,在GitHub上获得了超过2万颗Star。

Qdrant

https://qdrant.tech/

最近一轮融资:2023.4天使轮 750万美元。

Qdrant成立于2021年,它针对人工智能软件开发人员,提供用于非结构化数据的开源向量搜索引擎和数据库。 Qdrant提供用于非结构化数据的开源托班/自托管向量搜索引擎和数据库。Qdrant的向量数据库通过实时和真实世界的数据来扩展ChatGPT等基于大语言模型的应用程序的“知识库”,从而构建更先进的应用程序。

Qdrant的两位创始人Andre Zayarni(CEO)和Andrey Vasnetsov(CTO)在共同创立Qdrant之前,都在智能招聘公司moberries工作,Andre Zayarni是CTO,Andrey Vasnetsov是Lead Data Scientist。

Vespa,Yahoo 开源产品

https://vespa.ai/

Vespa由Oath开发,发布之初被定义为一款开源的“大数据处理和服务引擎”。2003年2月2日,Yahoo以1亿美元收购Vespa前身——挪威搜索引擎公司AlltheWeb;2017年9月28日,由Yahoo和AOL 业务合并后诞生的公司Oath宣布开源Vespa,并将代码托管于GitHub。

Fabarta ArcVector

https://www.fabarta.com/

成立于2021年。

最近一轮融资:2023 年 4 月,宣布已经成功获得亿元人民币的 Pre-A 轮融资。

Fabarta 是一家成立于中国的AI基础设施公司,旗下有包含 ArcNeural 在内的多款AI时代的数据产品。ArcNeural 是一款融合了向量(Vector)、图(Graph)和 AI 推理(Reasoning)的多模态智能引擎。同时,也可以直接将 ArcNeural 作为向量数据库来使用,基于云原生分布式架构,可动态灵活弹性,不论是十万级还是十亿级规模,向量检索延迟均可控制在毫秒级。

Tencent Cloud VectorDB

https://cloud.tencent.com

预计2023年8月上线。

隶属云腾讯云旗下,是从接入层、计算层到存储层提供全生命周期AI化的向量数据库,能够被广泛应用于大模型的训练、推理和知识库补充等场景。腾讯云向量数据库最高支持10亿级向量检索规模,延迟控制在毫秒级,相比传统单机插件式数据库检索规模提升10倍,同时具备百万级每秒查询(QPS)的峰值能力。

Faiss

https://faiss.ai

成立于2017年。

由Facebook AI Research团队开发的开源向量搜索库,为稠密向量提供高效相似度搜索和聚类,支持十亿级别向量的搜索,是目前最为成熟的近似近邻搜索库,在GitHub上获得了超过1.5万颗Star;但需要自己构建和管理索引,支持CPU和GPU计算。