即将到来的ChatGPT：画画与识图技能大揭秘

发表时间: 2023-09-25 13:16

大半夜的， OpenAI 又整出了个劲爆消息：

DALL·E 3 来了！不仅来了，还会被整合到 ChatGPT 里。

也就是说，除了老生常谈的对话、写代码、解数学题外，整合了最新 DALL·E 3 的 ChatGPT 这次终于有图片功能了。

ChatGPT+DALL·E ，这波算是强强联合，一个是语言大模型里的无冕之王，另外一个也算是文生图模型里的佼佼者，真正的效果也必然会 1+1>2 。

这次突然官宣算是填了今年年初 GPT-4 刚出来后，被传的纷纷扬扬的多模态 ChatGPT 的大坑。

不过，现在 OpenAI 还只是公布了这个消息，具体的上线时间是 10 月。面向 Plus 和企业版用户，单独的 DALL·E 3 今年秋天也会上线。

这玩意具体有多厉害，虽然现在我们还不能上手，但从 OpenAI 公开的示例来看，还是相当炸裂的。

其中，就有热心网友直接打来了 Midjourney ，把 DALL·E 3 的示例提示词喂给了它，好直接斗图一比高下。

而结果只能说：Midjourney 危了。

首先是很经典的牛油果看病梗图，提示词：一个牛油果坐在治疗师的椅子上，说着 “ 我感到内心如此空虚 ” ，牛油果中间有一个小坑大小的洞。治疗师，勺子，涂鸦笔记。

虽然乍一看是各有千秋，两种不同的风格。但若再仔细对照下提示词，很显然 Midjourney 忽视了治疗师，勺子，涂鸦笔记这几个元素，对话框里的文字也是乱写一通，不按照要求来。

然后让他们生成一张关于半透明心脏的图片，并且要求在心脏下面刻上一行特定的名言。

提示词：这是一幅用半透明的玻璃制成的人类心脏的插图，它矗立在狂风暴雨的海洋中的一个基座上。阳光穿透云层照亮了心灵，揭示了内在的微小宇宙。 “ 发现你内心的宇宙 ” 这句名言被用粗体字刻在基座上。

毫无疑问，这次 DALL·E 3 再次吊打了 Midjourney ， Midjourney 除了没按照要求刻字外，像狂风暴雨的海洋、内在的微小宇宙等细节是一点也没展现。

再来一张以荔枝为灵感的球形椅子的照片，细节上，要求有白色凹凸不平的外观，柔软的内饰，与背后的热带壁纸形成对比。

这把它们俩生成的图片里各个元素都齐活了，但 Midjourney 似乎还是误解了热带壁纸和热带雨林的区别。

当然，误解提示词、断章取义这些都相当于是之前文生图模型的顽疾了。

像什么寄居蟹就给生成一个螃蟹。。。

让它生成 2D 的拟人化森林乐队结果生成 3D 的。。。

而这些老毛病，照 OpenAI 自己的说法以及给出的示例来看，新的 DALL·E 3 基本上不存在这种情况。

除了解决掉老毛病之外， DALL·E 3 还在原来二代版本上也进行了质感上的升级。

就比如让它们画篮球运动员扣篮的场景，元素是星空爆炸。

本来 DALL·E 2 生成的图已经很符合要求了，没想到升级后的 DALL·E 3 更加逼真，肌肉线条、宇宙的色彩这些细节都一一展示出来，属实是降维打击。

左：DALL·E 2 ，右：DALL·E 3

总体看下来， DALL·E 3 在 ChatGPT 的加持下，语言理解能力直接拉满，简直是要赢麻了的节奏。

升级版的 ChatGPT 不仅不会丢失关键信息点，就算只是零零星星打了几个关键词，它也能帮你自动补全描述，然后再让 DALL·E 3 生成图片。

OpenAI 这是拿捏住了当代网友 “ 文化沙漠 ” 的本质了（狗头）。

当然 DALL·E 3 和 ChatGPT 的整合，不止是更能听懂人话那么简单，它们还会产生一些奇妙的火花。

就比如升级版的 ChatGPT 在画画上也有了上下文理解能力，甚至可以直接当做生产力工具。

具体有多厉害， OpenAI 官网给出了一段演示视频，说实话，世超在看了后，也是为插画师的饭碗狠狠地捏了一把汗。

首先是让 ChatGPT 生成一个超级向日葵刺猬，它会给出四张图，从里面选一张最喜欢的之后，可以进行下一步的对话。

然后把这个刺猬命名成 Larry ，可以再让 ChatGPT 多生成几张它的照片。

接下来上点难度，直接搞个场景，让它展示一下 Larry 的家。

这把可以直接看出 DALL·E 3+ChatGPT 的实力了，不仅 Larry 的样貌还保持原样（这换其他 AI 可能早变样了），而且门口的邮箱还写着 “LARRY” 的名字。

此外，描述 Larry 的特点、用图片展示它的爱心、甚至做做 Larry 的周边，设计出几个贴纸，对于 ChatGPT 来说都是洒洒水的事。

最后让它整理个睡前故事，来个 ending pose ， ChatGPT 也是信手拈来， u1s1 我真的有点被这丝滑的对话震撼到。。。

看到这里，世超还突然得了新的灵感，之后我们写好的文章岂不是就可以直接丢给 ChatGPT ，让它提取关键词做封面。

有啥特殊要求也可以直接告诉 ChatGPT ，参考图啥的也可以扔给它，摸鱼技巧 +1+1 。。。

言归正传，上面提到的那些还只是 OpenAI 单方面展示出来的效果，实际用起来怎么样，还是得等到 10 月份上线之后才能知道，估计到时候有会有一波隐藏技巧被网友们开发出来，坐等。

另外，谈到 AI 绘画，就还是躲不过那个老生常谈的话题：版权问题。

OpenAI 这边依旧还是之前的立场，和第二版一样，用 DALL·E 3 生成的图片不需要经过许可就能用，想商业化都行。

不过，有了太多的前车之鉴， OpenAI 这次耍了点小聪明，说是艺术家可以选择拒绝自己的作品被投喂给 DALL·E ，前提是只要填一个表格就 OK 了。

虽然这多少有点 “ 不拒绝就是默许 ” 的意味，但相较于之前，起码艺术家们不再那么被动了。。。

对于之前网络出现的 AI 绘画侵犯公众人物隐私，以及一些其他偏见的问题， DALL·E 也有对策了：在实际使用的过程中， ChatGPT 会直接拒绝提示中带有公众人物名字的请求。

也就是，像这种乐子图我们估计也不会在 ChatGPT 中看到了。。。

并且他们还组建了一个 “ 红色团队 ” ，用来评估和降低模型在各个阶段可能会产生的风险。

最后， OpenAI 还在官网上表示说，它们在研究一个识别 AI 画图的工具，能够判断哪些图片是 DALL·E 3 生成的。

（只希望不要像之前那个识别 AI 文本的工具，因为鸡肋半路夭折。。。

总的来说，有文生图功能的 ChatGPT 就已经足够在 AI 圈子里掀起一阵热度，而这波又是整合的升级版 DALL·E 3 ，很难不让人振奋，反正世超已经是等不及想上手试试了。

但有人欢喜有人忧， OpenAI 这波是再次甩了同行一大截，等到 10 月更新之后，估计又有不少 AI 初创公司被碾压在 ChatGPT 前进的车轮下。。。

即将到来的ChatGPT：画画与识图技能大揭秘

热门阅读

推荐阅读