李开复领导的零一万物公司,自研向量数据库领先原榜单第一名的286%|钛媒体AGI

发表时间: 2024-03-11 18:47

钛媒体App 3月11日消息,李开复博士创立的零一万物宣布,公司成功研发出基于全导航图的新型向量数据库 “笛卡尔(Descartes)”,并已包揽权威榜单ANN-Benchmarks 6项数据集评测第一名。

零一万物表示,在国际权威评测平台ANN-Benchmarks离线测试中,零一万物笛卡尔向量数据库比之前榜单上同业第一名有显著性能提升,部分数据集上的性能提升甚至超过2倍以上,在gist-960-euclidean数据集维度更大幅领先榜单原TOP1 286%。

零一万物强调,笛卡尔向量数据库将应用于公司即将正式发布的 AI 产品中,未来还将结合工具提供给广大开发者。

据悉,零一万物(01.AI)成立于2023年5月16日,致力于打造全新的 AI 2.0 平台与AI-first生产力应用的全球化公司,由创新工场董事长兼CEO李开复博士亲自挂帅,担任零一万物CEO。

2023年中关村论坛上,李开复就对钛媒体App等表示,以GPT-4等大模型为代表的生成式 AI 热度在全球蔓延,意味着AI 2.0时代已经到来,它将带来比移动互联网时代大十倍的机会,穿透各行各业极大地提振生产力。“我们预测,全新的 AI 2.0平台将能有效帮助提升人类生产力,创造巨大的经济价值及社会价值。”

2023年11月,零一万物发布首款研发的最强开源 AI 大模型系列“Yi”,包括Yi-6B(数据参数量为60亿)、Yi-34B(340亿)两款,均是双语(英文/中文)、支持开源。

其中,Yi-34B模型在多项评测基准中全球领跑,基于超强Infra下模型训练成本实测下降40%,模拟千亿规模训练成本可下降多达50%,并以更小模型尺寸的基准结果超过LLaMA2-34B/70B、Falcon-180B等大尺寸开源模型,以及百川智能(王小川创立)的Baichuan2-13B。

“随着团队到位,2023年6、7月份开始写第一行代码,短短四个月做了非常自豪的产品。我们是‘不鸣则已,一鸣惊人’。所以‘一鸣惊人’之后,如果我们过半年甚至过一年回头看,今天对我们来说只是刚刚开始,我们还会不断的去开发、推动、宣布更多令人惊艳的成果。”李开复当时表示。

此次公布的向量数据库,又被称为AI时代的信息检索技术,是检索增强生成(RAG)内核技术之一。随着大模型为代表的AI 2.0时代到来,图片、视频、自然语言等多模态的非结构化数据量陡增。区别于传统数据库,向量数据库专门用来存储、管理、查询和检索向量化的非结构化数据,而ChatGPT模型进一步强化了向量数据库的作用。

截至目前,Google、微软、Met 等大厂的相关向量大模型产品先后问世,Zilliz、Pinecone、Weaviate、Qdrant等创业公司也异军突起。2023年,OpenAI的向量数据库合作方Pinecone完成了B轮1.38亿美元融资,国内初创企业Fabarta ArcNeural也完成了上亿元Pre-A轮融资。

如今,李开复带领的团队也自主研发出全新的向量数据库。

具体来说,零一万物笛卡尔主要聚焦于高性能向量数据库,采用领先的全导航图技术、首创自适应邻居选择策略等新功能,以及采用了两级量化方案增强RAG,在处理复杂查询、提高检索效率、优化数据存储方面相比业界拥有显著的比较优势。另外,零一万物还采用索引结构优化、连通性保障等全栈向量技术方案,从而提高笛卡尔向量数据库的性能。

以电商推荐场景为例。上架商品数量可能千万级,每个商品可以由一个向量表达,即使库中向量数不算很大,如果电商用户基数非常庞大,高峰时每秒用户请求数非常大,可能达到几十万甚至上百万的吞吐量QPS(每秒内处理的请求数),使用高性能向量数据库可以有效提升电商场景里面搜索、广告业务的推荐效果,促进销售额增长。

零一万物表示,笛卡尔拥有超高精度、超高性能两个优点:一、超高精度,基于多层缩略图和坐标系实现层间导航和图上方位导航,以及图连通性保障,实现精度大于99%,相同性能下,精度大幅领先业内水平;二、超高性能,高效的边选择和裁剪技术,千万数据库ms(秒级)响应。

该公司指出,在两级量化降低计算复杂方面,相比传统PQ查表,笛卡尔向量数据库的性能得到大幅提升到2-3倍;目标向量层面,笛卡尔让RAG向量检索性能提高15%-30%,从而帮助企业客户构建私域知识库、智能客服系统;在自动驾驶领域,使用高性能向量数据库可来加速自动驾驶模型训练等。

基准测试层面,在glove-25-angular、glove-100-angular、sift-128-euclidean、nytimes-256-angular、
fashion-mnist-784-euclidean、gist-960-euclidean六大数据集中,零一万物笛卡尔向量数据库在6项数据集评测中都处于最高位。

零一万物强调,笛卡尔向量数据库是团队基于RAG的初步尝试,将在近期发布的AI生产力产品中得到有效应用。未来各家大模型优化到一定程度后,向量数据库的能力可能决定各家大模型的天花板。零一万物后续会持续专注研发和分享,为用户带来更好的技术和体验。

“零一万物的数据处理管线、算法研究、实验平台、GPU资源和 AI Infra 都已经准备好,我们的动作会越来越快”。李开复表示,零一万物希望有更多的开发者使用Yi系列模型,打造自己场景中的“ChatGPT”,引领下一代前沿创新和商业模型,探索走向通用 AI 时代。

钛媒体App了解到,零一万物即将推出基于 AI 2.0 的超级应用产品。

(本文首发钛媒体App,作者|林志佳)