ChatGPT震撼升级！新时代AI对话体验来临！

发表时间: 2023-10-11 11:29

就在前些时间，ChatGPT迎来了重磅升级，支持图片和语音输入。那么在这次更新中，我们可以看到哪些进步？终极AGI，又距离我们多遥远呢？

引言

赶在国庆长假前ChatGPT迎来了重磅升级，用户可以通过语音或图片的方式和ChatGPT进行交流；OpenAI CEO奥特曼在校友分享会上，轻描淡写的一句话给大多数GPT创业项目画上了“句号”；强化学习之父萨顿联手传奇程序员卡马克All in AGI了，终极AGI离我们还有多远呢？

一、GPT更新了什么？

1. 会听——和ChatGPT语音对话

用户通过语音的方式和ChatGPT进行多轮对话，官网给出的栗子是让ChatGPT讲一个睡前故事，并且支持切换不同语音包。目前听起来还是蛮自然的，至少“机器音”并不明显。

2. 会看——给ChatGPT发图聊天

ChatGPT可以理解用户发的图片内容了，官网给出的栗子是用户拍了一张自行车的照片，希望GPT给出调低座位高度的方案。

当然，也可以把自己冰箱里仅剩的食材发给GPT，让GPT给你输出菜谱或用餐计划；或者发一张图表让ChatGPT进行数据分析。

二、OpenAI CEO 奥特曼说了什么？

那么，现在的ChatGPT 能听语音、会看图了，这对我们来说意味着什么呢？看看OpenAI CEO 奥特曼是怎么说的

OpenAI CEO 奥特曼最近在校友会上发表了一些看法，更是直接“提醒”了不少创业公司：别花太多精力在UI界面上（也就是咱们常说的套壳）。当然，除此之外，奥特曼还给出了不少干货，简单整理如下：

1. 为啥取名叫ChatGPT？

就是特意取了个ChatGPT这样的名字，让它看起来就很像机器，避免人类对它产生感情。

2. 套壳GPT的都将灭亡！

目前有不少企业正在“解决”GPT模型的小缺陷，尤其是只在UI界面上做优化的，这是肯定行不通的。因为OpenAI已经着手解决了大部分问题，而且不要尝试和OpenAI拼迭代速度。善意提醒：独立的企业必须能提供真正的、独特的价值。

3. 看好AI赋能医学和教育方向

AI诊疗（AI medical advisor）：这将会体现出巨大的社会价值。
AI陪练（AI personalized one on one tutor）：为用户提供一对一量身定制的辅导。

4. GPT5/6还会给我们带来什么变化？

奥特曼透露，GPT5/6会具备多模态的输出能力，比目前的GPT有更高的可靠性和个性化定制能力。

但是一说到大模型，大多数人第一反应就是贵。那GPT5/6的成本和收费会不会非常恐怖呢？奥特曼表示，摩尔定律在大模型领域依然生效，目前大模型的训练成本越来越低，因此未来调用GPT接口的价格也会更加便宜。

三、讨论：AGI离我们还有多远

1. OpenAI 奥特曼：目前距离AGI还很远

虽然GPT已经给AI领域按下了“加速键”，但是还在还没找到一个产品能让我感觉和真人在聊天。

真正的AGI是能够“自行推理”，而不是依赖大模型预训练的，它像真实人类那样根据学到的知识，写论文、做实验的AI才能是称得上是AGI。

2. Keen Technologies：2030年实现AGI可行！

近期，强化学习之父萨顿也加入了Keen Technologies，联手传奇程序员卡马克All in AGI。他们两人在阿尔伯塔大学机器智能研究所（Amii）特别活动表示，2030年可以实现AGI的目标。而且，他们相信最终的AGI源代码将会是一个人就能编写的量级，可能只有区区几万行。

所以，AI的终极形态会是什么样的呢，让我们一起拭目以待吧！

以上资料参考来源如下，侵删：

https://openai.com/blog/chatgpt-can-now-see-hear-and-speak

https://www.linkedin.com/posts/ibamasood_chatgpt-can-now-hear-see-and-speak-nervous-activity-7112087060068368384-0OXb/

https://www.amii.ca/latest-from-amii/john-carmack-and-rich-sutton-agi/

本文由 @运营老中医原创发布于人人都是产品经理，未经许可，禁止转载

题图来自 Unsplash，基于 CC0 协议

该文观点仅代表作者本人，人人都是产品经理平台仅提供信息存储空间服务。