AI多模态搜索系统：革新向量数据库存储能力的新突破

发表时间: 2024-06-22 17:23

在深度学习时代，大模型引领了新的潮流。其波及的范围之广、影响之深刻，不仅改变了媒体的生产方式和交互方式，甚至影响了科研范式。

与此同时，深度学习从单一任务迈向统一任务、从单模态迈向多模态的发展速度，也因为大模型的能力取得了显著进步。

正因此，统一的音视频多模态模型，也就显得比以往更加重要。

在基础模型迅猛发展的今天，AI 应用也在井喷式发展，“AI-native” 这一名词也在各种场合被反复提及。

它指的是将现有技术使用大模型的方式重新覆写一次，实现“那些之前不能做，但是如今软件和硬件升级之后就可以做”的应用。

最经典的例子便是基础网络设施的升级，流量费用的大幅度下降，满足了人们观看和分享短视频的需求。

同样的道理，在 AI 技术日新月异发展的同时，是否也有一些潜在需求等待释放出来？

这背后隐藏着技术和需求的辩证观点：即技术可以催生需求，需求也可以促进技术迭代。

带着 “AI-native” 这样一个问题，前商汤科技研究院研究员骆继祥开始思考一些更底层的 AI 问题，并关注到了向量数据库的迅猛发展。

图 | 骆继祥（来源：骆继祥）

在近期一项研究中，他从存储和搜索这两个基础技术出发，在保证多模态数据压缩性能的前提下，进一步提高了多模态数据的搜索性能，从而构建出一个 “AI-native” 的多模态搜索系统。

研究中，他先是在神经网络的帮助之下，来学习非结构化数据的分布，继而利用这些分布进行无损和有损的数据压缩。

期间，他结合向量数据库搭建了一套存储和搜索的系统。完成搭建之后，他发现将压缩特征直接用来搜索，其效率会大大折扣。

不仅无法准确搜索到对应的图，而且计算量也会增加。于是，他通过桥接两类 embedding，解决了这一问题，并验证了本次系统的有效性。

其中，存储是为了节省硬盘甚至节省带宽费用，搜索则天然地和商业活动有着紧密联系。

因此，在多模态系统之下，通盘考虑存储和搜索在大模型中的应用，必然蕴含着一定的商业潜力。

其一，本次成果有望实现向量数据库的迭代。

事实上，向量数据库很早之前就已出现。但是，在大模型爆发之后，向量数据库的数量开始猛增。

其中，OpenAI 的 ChatGPT 背后使用的向量数据库便是由美国公司 Pinecone 提供的。

而在本次研究之中，通过融合多模态来打造搜索系统，有望促进向量数据库的迭代，使其在保证搜索精度的前提下，让存储能力得以提高。

其二，本次成果可以改进现有的图像搜索系统，简化原有的搜索流程。

同时，能够统一图像媒体存储库和其对应的 embedding 库，让图像提取 embedding 的过程变为图像压缩和图像存储的过程，从而简化对应的计算量。

而当前基于 AI 的图像压缩性能，已经远超 JPEG 等传统算法，因此其存储效率也能得到极大的提升。

此外，对于图像压缩过程来说，要尽可能地保证图像的全部语义信息。而这个过程本身也可以提高图像搜索的精度。

当然，本次成果也有望开启一个更加精准的多模态搜索市场，比如基于图像中的物体、实例、动作、或其他语义来进行精准搜索，从而让图像搜索能够更好地和人类意图对齐。

图 | 向量数据库的趋势（https://db-engines.com/en/ranking_trend/vector+dbms）

日前，关于本次研究的相关论文以《可压缩和可搜索：基于学习图像压缩的人工智能原生多模态检索系统》（Compressible and Searchable: AI-native Multi-Modal Retrieval System with Learned Image Compression）为题发在 arXiv[1]，骆继祥是唯一作者。

图 | 相关论文（来源：arXiv）

而在后续，他会通过增加相关实验，为本次成果提供更充足的证明。也会进一步研究图像语义在搜索和压缩中的作用和表现。

参考资料：

1.https://arxiv.org/pdf/2404.10234

排版：刘雅坤

AI多模态搜索系统：革新向量数据库存储能力的新突破

热门阅读

推荐阅读