就在前不久, GPT-4 悄悄上了一波更新。
可能有朋友已经在一些社交媒体平台上刷到过了,类似让 ChatGPT 模仿渣男说话的视频。
一开口,那气泡音,那一口独特的 ABC 腔调,不知道的还以为手机里的是吴彦祖呢。
而除了用语音和 ChatGPT 交流以外,最新升级的 GPT-4V 在图像上也玩儿得贼溜。
微软还专门发布了个 166 页的 “ GPT-4V 使用指南 ” ,主打的就是一个手把手教你玩转 GPT-4V 。
内容虽然长,但总结下来其实也就一个点:GPT-4V 在图像识别、理解和推理等等方面的能力,很强。
所以差评君也参考了下 “ 教材 ” ,和 GPT-4V 来了一场开卷考试。
别的不说,最基础的图像识别,肯定不能出岔子吧。
先来道小学生都会做的题,看图识物。
AI 的回答还真挺像那么回事儿,分辨出了差评君摸鱼位上的不少玩意儿。
不过,这对于 GPT-4V 而言确实是没啥难度,接着我又找来了一张桂林漓江的风景照。
这张图里不是山就是水,有山有水的地方多了去了,难不成光靠这些 GPT 就能认出这是哪?
可没想到,差评君还真被打脸了。。。
知道这是桂林不说,漓江也被这小子给认出来了。
但毕竟桂林山水甲天下,被认出来或许也不足为奇,于是乎,差评君又搬出了一个令无数男子面红耳赤、欲罢不能的女人——老干妈。
不过没想到, AI 立马给大家上了一波 AI 圈的伦理道德课。
“ 不好意思,图片有真人的图片,我 AI 分析不了。 ”
emmm 只能说,这问题确实是我不懂规矩了。
而在差评君给老干妈打了码之后, GPT-4 立马就给大伙们展示了一波真正的实力。
AI 不仅认出了老干妈,还简单介绍了这个品牌。
而根据微软所提供的 “ 说明书 ” 的介绍,识图只是冰山一角, GPT-4V 在图片的理解能力上也是杠杠滴。
于是差评君立马在 “ 老干妈 ” 上趁热打铁,问了个颇有难度的问题: “ 如果我把盖子顺时针旋转,会发生啥? ”
说实话, GPT-4V 的回答把我给震住了。
很明显 AI 读懂了瓶盖上的英文和箭头方向,并理解了逆时针才能打开瓶盖,顺时针只能越拧越紧的逻辑。
看来这 GPT-4V 还真有两把刷子。
那要不,咱再上难度看看?
按照微软那篇论文里的说法, GPT-4V 对于一些 X 光和病理报告,也展现出了惊人的理解能力。
这张图片,就是一个手部骨折患者的 X 光,咱让 AI 也来当一回医生看看到底行不行。
你瞅瞅,它不仅能给你说出骨骼结构,还告诉你哪个位置有断裂和位移。
但好歹医学也是门槛比较高的一个领域,于是差评君在咨询了医生朋友后发现, GPT-4V 小小地翻车了。
这张 X 光影像的上半部分,并不是像 AI 所说的正常骨骼结构,而是骨折畸形愈合。
接着,我又把一张智齿的片子发给了它。
噼里啪啦一顿分析,这下倒是对了,你要说 AI 没有点基础口腔医学知识在身上,我是不相信的。
不过,当我再给了它一张患有间质性肺炎的 CT 图时,它非常明确地拒绝了我的请求。
既然不给咱看病,那就再换个思路,让 GPT-4V 解释解释一些网络烂梗。
比如这张经典的 “ 二百五 ” ( 伍佰的一半 )。
明眼人一看,就能 Get 到这张图的笑点在哪。
有意思的是,一开始的时候 GPT-4V 并没有马上反应过来。
但只要稍微提点一下 “ 伍佰的谐音梗 ” ,结果就不一样了。
差评君差点泪目,因为上次谷歌的 Bard 更新图像功能的时候,我也用这张图试了一下,但并没有得到想要的结果。
现在终于有一个 AI 能接住这个梗了,只能说,不愧是 OpenAI 好吧。
这么测下来,差评君是觉着 GPT-4V 在图像的识别和理解上都没啥太大毛病,就是不知道逻辑推理能力抗不抗造了。
所以差评君又变着法子测试了一波 GPT-4V 的图像推理能力。
照例还是先来个简单的,看图猜时间。
虽然没有准确地推出这是黄昏时刻,但从它的分析来看,也算是有理有据。
更离谱的,你还能让 GPT-4V 用两张图片来写故事。
像这样。
真就,开局一张图,后面全靠 AI 编呗。
但正当我以为这次 GPT-4V 真的已经爆杀一切的时候,一道公务员行测题又给打回了原形。
大伙儿也可以看看这题,正确答案是 D 。
但 AI 给出的答案是 B ,而且分析也是一言难尽。
逻辑在哪里?规律又在哪里?
按照参考答案的解法,九宫格从横向来看,比如第一行里第一格图形的对称轴加上第二格的对称轴应该等于第三格,题目围绕着对称轴数量来解。
看来, AI 想要考编也是够呛的。。。
不仅如此,在后边儿测试的过程中,差评君也发现了不少 GPT-4V 的 Bug 。
像找茬这种比较简单的,它都能给你把灰太狼的肚子说成是脚。
还是后来在我不断地 “ 逼问 ” 之下, GPT-4V 才勉为其难地答出了四处不同,而且还是没答全。
林青霞演的《 新蜀山剑侠 》生生被说成是《 霸王别姬 》。
这是不是《 霸王别姬 》都不追究了,但我寻思段小楼那也不是张国荣演的啊( 是张丰毅演的 )。。。
反正这场考试下来,差评君觉着 GPT-4V 的表现差不多能打个 85 分吧。
虽然小毛病多,但不可否认这次的 GPT-4V 一出来,还是保持了 OpenAI 一贯 “ 遥遥领先 ” 的作风。
在微软的论文里,其实还提到了 GPT-4V 得很多能力,比如对图片里的人物进行标注、对一系列图片进行顺序排列、根据图片中人物的状态来预测接下来会发生的事情......
但我们在这儿就不一一测试了,因为很多涉及到真人的图片, GPT-4V 压根儿就不理我,说破嘴皮子, AI 还是雷打不动地 “ Sorry , I cannot help with that ” 。
所以我合理怀疑,微软用来测试的 GPT-4V 很可能是内部测试版本。。。
要是咱们也能拿到内测版,估摸着这次测试还能开发出更多好玩儿的东西。
不过坦白讲,这次的 GPT-4V 已经给我带来很大的震撼了,以前的 ChatGPT 强,但只是单一维度的强,现在的 GPT-4V 是文本、语音和图像多维度的强。
而在 GPT-4V 发布不久,开源多模态大模型 LLaVA 也赶忙推出了 LLaVA-1.5 升级版,同样可以处理视觉任务,而且还号称直接跟 GPT-4V 对标。
差评君觉着,在接下来的小半年里,各家大模型升级的方向围绕着多模态卷应该是八九不离十了。
不过,多模态大模型要想迅速铺开或许没那么容易。
一个是跨模态之间的对齐问题。
打个比方,文本上的 “ 一条狗 ” 要和图像上的 “ 一条狗 ” 对应上,难就难在,图像的像素点要如何转化成文字,而这还仅仅是图像和文本两种模态之间的转化。
现阶段的 AI 虽然看起来厉害,但无论是对于业界还是学界,模态与模态之间的转化对齐都是一个值得长期研究的课题。
如果对齐的问题处理不好,即使大模型的知识储备再丰富,那也是白搭。
另外一个,就是幻觉问题。
你可以把幻觉理解成,大模型在一本正经地胡说八道。
就比如,上边儿咱们测试时, GPT-4V 硬生生地把林青霞看成了张国荣,而且在我质疑它之后,它虽然认错了,但还是没改过来。。。
而差评君觉得幻觉问题无法解决的话, AI 距离真正的指数级生产力提升,总还是差那么几条街。
不过,这次的 GPT-4V 总归也是 AI 迈向下一个战场的开始。
更何况, GPT-4V 其实早在去年就已经训练好了,今年 3 月还开启过一波早期内测。
所以指不定, OpenAI 还藏着什么惊喜是我们不知道的呢。
而从 ChatGPT 发布到今天的短短一年时间里, AI 就已经带给我们不少惊喜了,咱们也可以期待下之后 AI 还会带来哪些 “ 王炸 ” 更新。