AI多模态搜索系统:革新向量数据库存储能力的新突破

发表时间: 2024-06-22 17:23

深度学习时代,大模型引领了新的潮流。其波及的范围之广、影响之深刻,不仅改变了媒体的生产方式和交互方式,甚至影响了科研范式。


与此同时,深度学习从单一任务迈向统一任务、从单模态迈向多模态的发展速度,也因为大模型的能力取得了显著进步。


正因此,统一的音视频多模态模型,也就显得比以往更加重要。


在基础模型迅猛发展的今天,AI 应用也在井喷式发展,“AI-native” 这一名词也在各种场合被反复提及。


它指的是将现有技术使用大模型的方式重新覆写一次,实现“那些之前不能做,但是如今软件和硬件升级之后就可以做”的应用。


最经典的例子便是基础网络设施的升级,流量费用的大幅度下降,满足了人们观看和分享短视频的需求。


同样的道理,在 AI 技术日新月异发展的同时,是否也有一些潜在需求等待释放出来?


这背后隐藏着技术和需求的辩证观点:即技术可以催生需求,需求也可以促进技术迭代。


带着 “AI-native” 这样一个问题,前商汤科技研究院研究员骆继祥开始思考一些更底层的 AI 问题,并关注到了向量数据库的迅猛发展。



图 | 骆继祥(来源:骆继祥)


在近期一项研究中,他从存储和搜索这两个基础技术出发,在保证多模态数据压缩性能的前提下,进一步提高了多模态数据的搜索性能,从而构建出一个 “AI-native” 的多模态搜索系统。


研究中,他先是在神经网络的帮助之下,来学习非结构化数据的分布,继而利用这些分布进行无损和有损的数据压缩。


期间,他结合向量数据库搭建了一套存储和搜索的系统。完成搭建之后,他发现将压缩特征直接用来搜索,其效率会大大折扣。


不仅无法准确搜索到对应的图,而且计算量也会增加。于是,他通过桥接两类 embedding,解决了这一问题,并验证了本次系统的有效性。


其中,存储是为了节省硬盘甚至节省带宽费用,搜索则天然地和商业活动有着紧密联系。


因此,在多模态系统之下,通盘考虑存储和搜索在大模型中的应用,必然蕴含着一定的商业潜力。


其一,本次成果有望实现向量数据库的迭代。


事实上,向量数据库很早之前就已出现。但是,在大模型爆发之后,向量数据库的数量开始猛增。


其中,OpenAI 的 ChatGPT 背后使用的向量数据库便是由美国公司 Pinecone 提供的。


而在本次研究之中,通过融合多模态来打造搜索系统,有望促进向量数据库的迭代,使其在保证搜索精度的前提下,让存储能力得以提高。


其二,本次成果可以改进现有的图像搜索系统,简化原有的搜索流程。


同时,能够统一图像媒体存储库和其对应的 embedding 库,让图像提取 embedding 的过程变为图像压缩和图像存储的过程,从而简化对应的计算量。


而当前基于 AI 的图像压缩性能,已经远超 JPEG 等传统算法,因此其存储效率也能得到极大的提升。


此外,对于图像压缩过程来说,要尽可能地保证图像的全部语义信息。而这个过程本身也可以提高图像搜索的精度。


当然,本次成果也有望开启一个更加精准的多模态搜索市场,比如基于图像中的物体、实例、动作、或其他语义来进行精准搜索,从而让图像搜索能够更好地和人类意图对齐。



图 | 向量数据库的趋势(https://db-engines.com/en/ranking_trend/vector+dbms)


日前,关于本次研究的相关论文以《可压缩和可搜索:基于学习图像压缩的人工智能原生多模态检索系统》(Compressible and Searchable: AI-native Multi-Modal Retrieval System with Learned Image Compression)为题发在 arXiv[1],骆继祥是唯一作者。



图 | 相关论文(来源:arXiv)


而在后续,他会通过增加相关实验,为本次成果提供更充足的证明。也会进一步研究图像语义在搜索和压缩中的作用和表现。


参考资料:

1.https://arxiv.org/pdf/2404.10234


排版:刘雅坤