近日,又有一款多模态大模型宣布开源。并且据官方称,它已经能和GPT-4V掰腕子了。
在功能上,它不仅可以智能识图。
可以图文创作。
还能一键生成网页。
这款大模型就是由上海AI实验室开发的书生·浦语灵笔2.5。
和其他大模型一样,书生·浦语灵笔也是会取名的。该名字取自“书生·浦语”和“灵笔”的结合,前者指代其底座大模型“书生·浦语2.5”,后者是说其“下笔有灵”,文笔不错。
据悉,浦语灵笔2.5在今年的WAIC大会上正式开源。相较于今年1月开源的2.0版本,2.5版本除了多模态对话外,又新增了生成图文并茂的文章和一键制作网页两项功能,这也使它成为国内独一份的图文混合创作大模型。
同时,浦语灵笔2.5在视觉语言理解方面也有三大升级,分别是:超高分辨率理解、细粒度视频理解和多轮多图像对话。
可以说,它在理解模型领域(输入端)和生成模型领域(输出端),都具备多模态功能了。
目前,浦语灵笔2.5已上线Huggingface。“AI新榜”也火速赶去体验了一番,看看它到底整出了什么新花样。
附体验地址:
https://huggingface.co/spaces/Willow123/InternLM-XComposer
开源链接:
https://github.com/InternLM/InternLM-XComposer
实测浦语灵笔2.5,一键解锁图文混合创作能力
多模态对话
首先,浦语灵笔2.5支持多模态对话,包括识别单图、多图以及单个视频,用户可通过点击不同按钮,切换不同的识别模式。
与其他大模型不同的是,浦语灵笔2.5提供了较高自由度的参数设置。用户既可以自行调节回复的字数上限、集束大小,也可以设置“重复惩罚”的数值,以减少大模型生成重复答案的几率。
由于单图识别已经很常见,我们选择直接测试多图识别,一次性上传了三张电车图片,分别是蔚来ES6、特斯拉Model Y和小米su7,让大模型从中推荐一款最具性价比的。
它给出的答案是特斯拉Model 3,并给出了较为中肯的理由。
不过这款车型并不在给定范围之内,为了避免它在蒙题,我们要求它说出三张图的识别结果。
由于浦语灵笔2.5不能联网,它将小米su7错认成了特斯拉Model 3,不过能准确认出特斯拉Model Y和蔚来ES6已经足够惊喜。
同样的问题我们也问了为数不多支持多图识别的kimi,它并没有直接给出具体的车辆信息。相比之下,浦语灵笔2.5的确更胜一筹。
接下来是单个视频识别。我们在这里直接使用了系统自带的视频推荐,即刘翔2004年在雅典奥运会上的夺冠视频,然后让它识别谁嬴得了这场比赛、说出冠军的名字以及识别冠军身上的字。
从回答来看,它完成得不错,美中不足的可能是生成速度稍慢了点。
图文混合创作
浦语灵笔2.5的第二个功能是支持同时生成文章和配图,这也是它的一大亮点。
正好最近萝卜快跑很火,我们让浦语灵笔2.5围绕这个话题写一篇评论文章,并让它自动配上3张图。为了减少不能联网对它造成的干扰,我们提供了较多背景信息。
需要注意的是,目前大模型默认的仍是纯文本写作,我们需要事先关闭这个选项。
从生成的回复来看,浦语灵笔2.5没有泛泛而谈,还是写出了不少干货的。尤其是在讨论无人驾驶的安全问责时,它不仅切实讨论了问责主体的若干可能性,还提供了许多法律视角,说服力瞬间高了不少。
不过可能是它的数据库暂未更新萝卜快跑的图片,所以有些配图不够精准。这时,我们可以直接点击右侧的钢笔图标进行替换。据悉,浦语灵笔2.5在插入图片时,还智能提供了4张备选。
之后,我们又要求它围绕“又见敦煌”的话题,写一篇散文风旅游攻略,并要求在文章中插入5张图片。
几分钟之后,我们得到了一篇不够散文但足够实用的敦煌攻略。文章不仅覆盖了景点、美食、购物、住宿、交通等事项,配图也都比较精准。(由于长度关系,仅上传部分)
此外,用户如果想生成更个性化的文章,还可以提前上传想在文章中插入的图片。
网页生成
除了上述功能外,浦语灵笔2.5还是一个免费且实用的网页生成器。
目前,用户可以通过上传简历、上传截图、输入文字描述这三种方式,一键生成网页。
我们先在网上找了一张光与夜之恋游戏里的角色简历,然后上传给了浦语灵笔2.5。(PS:大模型要求简历为pdf格式)
图源小红书用户“娇咩咩”
很快,它就生成了一个查理苏专属网页,按照简历所列出的板块分别介绍查理苏的个人信息。如果我们再点击一下右上角图标,还能继续生成手机端网页或者获取源代码。不过网页目前配图很少,需要用户自行上传。
鉴于截图生网页的情形与之类似,我们就不再重复,而是直接测试了由文本描述生成网页的做法。
在这里,我们使用了系统自带的文本描述,要求大模型生成一个上海AI实验室的网页。
在这个任务中,它生成的网页还是比较中规中矩。这可能与它使用的Tailwind CSS模式有关,只支持生成简洁的排版。
此外,浦语灵笔2.5不支持查看历史记录。如果用户没有及时保存生成的内容,后续可能无法找回。
仅用7B后端就能媲美GPT-4V,浦语灵笔2.5是怎么做到的?
就在不久前,浦语灵笔2.5接受了包括视频基准测试、多轮多图像基准测试和网页制作基准测试等28个基准测试,其中16项取得了最佳效果,超越了GPT-4V和Gemini-Pro。
目前浦语灵笔2.5开源了应用场景最广的轻量级7B版本,模型兼顾速度、效率和性能表现。
仅使用7B LLM后端就能媲美GPT-4V,浦语灵笔2.5到底是怎么做到的?我们看了看它的技术报告。
首先,浦语灵笔2.5最基础的能力是多模态的识别和理解能力,比如它能通过图片识别车辆,通过视频识别其中的名人,并能进一步解读出他在做什么。
据介绍,浦语灵笔2.5遵循了浦语灵笔2.0的动态图像分区和全局设计,并进一步将图片的分辨率从490X490提高到560X560,使得每个子图像能有400个标记,从而实现了超高分辨率理解。
同时,浦语灵笔2.5使用了稀疏采样、时间池化、压缩视频令牌、记忆库等技术,可将视频中的采样帧组成高分辨率合成图像,从而能在视频测试中表现出色。
其次,为了解锁“下笔有灵”的长文本能力,它借助到了底座大模型“书生·浦语2.5”的语言建模技术。后者不仅拥有百万词元的超长文本窗口及领先的推理能力,也支持自主规划和在线信息整合。
在网页生成上,研究团队还提出了一种利用CNN和RNN实现UI到代码转换的端到端解决方案。这种方法在应用于现实世界的UI时,可以应对复杂的视觉编码和广泛的文本解码所带来的挑战。
不过相比于技术路径,开源可能才是它真正的重头戏。
也许是背靠科研院所的关系,浦语灵笔从诞生之初就拥抱开源,并提供免费的商用授权。
它的底层大模型书生·浦语也是首发于阿里云魔搭社区,率先和国内最大的开源社区实现了强强联合。
这意味着上海AI实验室希望“把大模型做成生态”,让“低成本,高应用”的时代更早到来。
据“AI新榜”观察,上海AI实验室也颇有成为开源平台的态势。
不完全统计显示,仅书生大模型系列就包括:
书生·万象2.0:多模态大模型,和书生·浦语同样属于底座大模型,支持图像、视频、文字、语音、三维点云等模态处理。
书生·风乌:气象大模型,扩展至气象海洋全方位预报体系,覆盖海陆空多种核心要素。
书生·翼飞:航空大模型,由上海AI实验室与中国商飞上海飞机设计院(上飞院)联合推出。
书生·瞳真:光学大模型,首次实现了无需穿戴设备的超广角全视差裸眼3D成像。
同时,仅书生·浦语系列开源以来,开发者社区及产学研界已利用它的工具体系开发出近1000个创新项目。
基于此,我们完全有理由期待国产的开源大模型能继续赋能创新,引领AI时代。