数据结构与算法

免费良心的国产开源大模型，超越GPT-4V的惊人表现

发表时间: 2024-07-19 20:25

近日，又有一款多模态大模型宣布开源。并且据官方称，它已经能和GPT-4V掰腕子了。

在功能上，它不仅可以智能识图。

可以图文创作。

还能一键生成网页。

这款大模型就是由上海AI实验室开发的书生·浦语灵笔2.5。

和其他大模型一样，书生·浦语灵笔也是会取名的。该名字取自“书生·浦语”和“灵笔”的结合，前者指代其底座大模型“书生·浦语2.5”，后者是说其“下笔有灵”，文笔不错。

据悉，浦语灵笔2.5在今年的WAIC大会上正式开源。相较于今年1月开源的2.0版本，2.5版本除了多模态对话外，又新增了生成图文并茂的文章和一键制作网页两项功能，这也使它成为国内独一份的图文混合创作大模型。

同时，浦语灵笔2.5在视觉语言理解方面也有三大升级，分别是：超高分辨率理解、细粒度视频理解和多轮多图像对话。

可以说，它在理解模型领域（输入端）和生成模型领域（输出端），都具备多模态功能了。

目前，浦语灵笔2.5已上线Huggingface。“AI新榜”也火速赶去体验了一番，看看它到底整出了什么新花样。

附体验地址：
https://huggingface.co/spaces/Willow123/InternLM-XComposer

开源链接：
https://github.com/InternLM/InternLM-XComposer

实测浦语灵笔2.5，一键解锁图文混合创作能力

多模态对话

首先，浦语灵笔2.5支持多模态对话，包括识别单图、多图以及单个视频，用户可通过点击不同按钮，切换不同的识别模式。

与其他大模型不同的是，浦语灵笔2.5提供了较高自由度的参数设置。用户既可以自行调节回复的字数上限、集束大小，也可以设置“重复惩罚”的数值，以减少大模型生成重复答案的几率。

由于单图识别已经很常见，我们选择直接测试多图识别，一次性上传了三张电车图片，分别是蔚来ES6、特斯拉Model Y和小米su7，让大模型从中推荐一款最具性价比的。

它给出的答案是特斯拉Model 3，并给出了较为中肯的理由。

不过这款车型并不在给定范围之内，为了避免它在蒙题，我们要求它说出三张图的识别结果。

由于浦语灵笔2.5不能联网，它将小米su7错认成了特斯拉Model 3，不过能准确认出特斯拉Model Y和蔚来ES6已经足够惊喜。

同样的问题我们也问了为数不多支持多图识别的kimi，它并没有直接给出具体的车辆信息。相比之下，浦语灵笔2.5的确更胜一筹。

接下来是单个视频识别。我们在这里直接使用了系统自带的视频推荐，即刘翔2004年在雅典奥运会上的夺冠视频，然后让它识别谁嬴得了这场比赛、说出冠军的名字以及识别冠军身上的字。

从回答来看，它完成得不错，美中不足的可能是生成速度稍慢了点。

图文混合创作

浦语灵笔2.5的第二个功能是支持同时生成文章和配图，这也是它的一大亮点。

正好最近萝卜快跑很火，我们让浦语灵笔2.5围绕这个话题写一篇评论文章，并让它自动配上3张图。为了减少不能联网对它造成的干扰，我们提供了较多背景信息。

需要注意的是，目前大模型默认的仍是纯文本写作，我们需要事先关闭这个选项。

从生成的回复来看，浦语灵笔2.5没有泛泛而谈，还是写出了不少干货的。尤其是在讨论无人驾驶的安全问责时，它不仅切实讨论了问责主体的若干可能性，还提供了许多法律视角，说服力瞬间高了不少。

不过可能是它的数据库暂未更新萝卜快跑的图片，所以有些配图不够精准。这时，我们可以直接点击右侧的钢笔图标进行替换。据悉，浦语灵笔2.5在插入图片时，还智能提供了4张备选。

之后，我们又要求它围绕“又见敦煌”的话题，写一篇散文风旅游攻略，并要求在文章中插入5张图片。

几分钟之后，我们得到了一篇不够散文但足够实用的敦煌攻略。文章不仅覆盖了景点、美食、购物、住宿、交通等事项，配图也都比较精准。（由于长度关系，仅上传部分）

此外，用户如果想生成更个性化的文章，还可以提前上传想在文章中插入的图片。

网页生成

除了上述功能外，浦语灵笔2.5还是一个免费且实用的网页生成器。

目前，用户可以通过上传简历、上传截图、输入文字描述这三种方式，一键生成网页。

我们先在网上找了一张光与夜之恋游戏里的角色简历，然后上传给了浦语灵笔2.5。（PS：大模型要求简历为pdf格式）

图源小红书用户“娇咩咩”

很快，它就生成了一个查理苏专属网页，按照简历所列出的板块分别介绍查理苏的个人信息。如果我们再点击一下右上角图标，还能继续生成手机端网页或者获取源代码。不过网页目前配图很少，需要用户自行上传。

鉴于截图生网页的情形与之类似，我们就不再重复，而是直接测试了由文本描述生成网页的做法。

在这里，我们使用了系统自带的文本描述，要求大模型生成一个上海AI实验室的网页。

在这个任务中，它生成的网页还是比较中规中矩。这可能与它使用的Tailwind CSS模式有关，只支持生成简洁的排版。

此外，浦语灵笔2.5不支持查看历史记录。如果用户没有及时保存生成的内容，后续可能无法找回。

仅用7B后端就能媲美GPT-4V，浦语灵笔2.5是怎么做到的？

就在不久前，浦语灵笔2.5接受了包括视频基准测试、多轮多图像基准测试和网页制作基准测试等28个基准测试，其中16项取得了最佳效果，超越了GPT-4V和Gemini-Pro。

目前浦语灵笔2.5开源了应用场景最广的轻量级7B版本，模型兼顾速度、效率和性能表现。

仅使用7B LLM后端就能媲美GPT-4V，浦语灵笔2.5到底是怎么做到的？我们看了看它的技术报告。

首先，浦语灵笔2.5最基础的能力是多模态的识别和理解能力，比如它能通过图片识别车辆，通过视频识别其中的名人，并能进一步解读出他在做什么。

据介绍，浦语灵笔2.5遵循了浦语灵笔2.0的动态图像分区和全局设计，并进一步将图片的分辨率从490X490提高到560X560，使得每个子图像能有400个标记，从而实现了超高分辨率理解。

同时，浦语灵笔2.5使用了稀疏采样、时间池化、压缩视频令牌、记忆库等技术，可将视频中的采样帧组成高分辨率合成图像，从而能在视频测试中表现出色。

其次，为了解锁“下笔有灵”的长文本能力，它借助到了底座大模型“书生·浦语2.5”的语言建模技术。后者不仅拥有百万词元的超长文本窗口及领先的推理能力，也支持自主规划和在线信息整合。

在网页生成上，研究团队还提出了一种利用CNN和RNN实现UI到代码转换的端到端解决方案。这种方法在应用于现实世界的UI时，可以应对复杂的视觉编码和广泛的文本解码所带来的挑战。

不过相比于技术路径，开源可能才是它真正的重头戏。

也许是背靠科研院所的关系，浦语灵笔从诞生之初就拥抱开源，并提供免费的商用授权。

它的底层大模型书生·浦语也是首发于阿里云魔搭社区，率先和国内最大的开源社区实现了强强联合。

这意味着上海AI实验室希望“把大模型做成生态”，让“低成本，高应用”的时代更早到来。

据“AI新榜”观察，上海AI实验室也颇有成为开源平台的态势。

不完全统计显示，仅书生大模型系列就包括：

书生·万象2.0：多模态大模型，和书生·浦语同样属于底座大模型，支持图像、视频、文字、语音、三维点云等模态处理。

书生·风乌：气象大模型，扩展至气象海洋全方位预报体系，覆盖海陆空多种核心要素。

书生·翼飞：航空大模型，由上海AI实验室与中国商飞上海飞机设计院（上飞院）联合推出。

书生·瞳真：光学大模型，首次实现了无需穿戴设备的超广角全视差裸眼3D成像。

同时，仅书生·浦语系列开源以来，开发者社区及产学研界已利用它的工具体系开发出近1000个创新项目。

基于此，我们完全有理由期待国产的开源大模型能继续赋能创新，引领AI时代。

热门阅读

推荐阅读