语音对话和图像识别功能：ChatGPT的两大新交互方式

发表时间: 2023-09-27 17:07

近日，ChatGPT 进行了可能是迄今为止最大的更新，OpenAI 为其推出了两种新的交互方式。

首先，ChatGPT 现在能够对话了。用户可以从五种逼真的合成声音中选择一种，然后就可以像打电话一样与聊天机器人进行对话，以问答的方式实时获得 ChatGPT 的回应。

ChatGPT 现在也可以回答有关图像的问题。OpenAI 在 2023 年 3 月份发布了 GPT-4（驱动 ChatGPT 的模型），对这一功能进行了披露，但并未向公众开放。现在，这项功能的上线意味着，你现在可以将图像上传到 ChatGPT 上，并询问它图片里包含什么。

这两项功能发布前一周，OpenAI 还对其图像制作模型 DALL-E3 进行了更新，将其与 ChatGPT 连接起来。如此一来，用户就可以让该聊天机器人生成图片。

（来源：AI 生成）

与 ChatGPT 对话的能力利用了两个独立的模型。一个是 OpenAI 现有的语音转文本模型 Whisper，可以将用户所说的内容转换为文本，然后输入到 ChatGPT 中。另一个是新的文本到语音模型，可以将 ChatGPT 的文字回应转换为语音回应。

在 OpenAI 最近给我的演示中，OpenAI 的产品经理 Joanne Jang 展示了 ChatGPT 的一系列合成声音。OpenAI 雇佣了一些演员并录下他们的声音，然后作为训练数据喂给文本到语音模型。在未来，它甚至可能允许用户创建自己的合成声音。她说：“在制作声音时，首要的标准是，这是否是一个你可以整天听而不腻的声音。”

他们的声音或许很有感染力，但不会符合每个人的口味。“我对我们的合作感觉非常好，”其中一个受邀录制声音的人说。另一个人说：“我只想和大家分享我的激动心情，我迫不及待地想开始工作。我很想知道我们要做什么？”

OpenAI 正在与包括 Spotify 在内的其他几家公司分享这种文本到语音模型。Spotify 日前透露，它正在使用相同的合成语音技术将名人播客，包括将 Lex Fridman 播客和将于 2023 年晚些时候推出的“崔娃”的新节目翻译成多种语言，这些多语种的音色将是主播本人声音的人工智能合成版本。

这一系列更新显示了 OpenAI 将其实验模型转化为理想产品的速度。自 2022 年 11 月推出 ChatGPT 以来，OpenAI 花了很多时间来完善其技术，并将其出售给消费者和商业合作伙伴。

ChatGPT 的高级订阅版 ChatGPT Plus 已然成为一个一站式（插件）商店。同时，将 GPT-4 和 DALL-E 两个模型整合为一个单一的智能手机应用程序，也可以与苹果 Siri、谷歌助手和亚马逊 Alexa 竞争。

一年前只有某些软件开发人员可以接触到的东西，现在每个人只需每月 20 美元就可以使用。Jang 说：“我们正在努力让 ChatGPT 变得更有用、更有帮助。”

在近期的演示中，开发 GPT-4 的科学家罗尔·普里（Raul Puri）向我简要介绍了图像识别功能。他上传了一张数学作业的照片，在屏幕上圈出了一个类似数独的谜题，并询问 ChatGPT 打算如何解决它。ChatGPT 回答了正确的步骤。

普里说，当他未婚妻的电脑出现故障时，他也尝试了这项功能，上传了错误信息的截图，并询问 ChatGPT 他应该怎么做。“遭遇故障是一次非常痛苦的经历，ChatGPT 帮我度过了难关，”他说。

一家名为 Be My Eyes 的公司已经对 ChatGPT 的图像识别能力进行了试验。该公司为视力受限的人制作了一款应用程序，用户可以上传他们面前的照片，并让人类志愿者告诉他们面对的是什么。在与 OpenAI 的合作中，Be My Eyes 为用户提供了询问聊天机器人的选项。

2023 年 5 月，我在 EmTech Digital 大会上采访 Be My Eyes 创始人汉斯·约尔根·韦伯歌（Hans Jørgen Wiberg）时，他曾告诉我：“有时候我的家里有点乱，或者只是我单纯地不想和别人说话。” 而现在，这些用户可以问聊天机器人了。

OpenAI 也深知向公众发布这些更新的风险。普里说，多个模型的结合带来了全新的复杂性。他说，他的团队花了几个月的时间对潜在的滥用方式进行头脑风暴。例如，你不能问关于私人照片的问题。

Jang 举了另一个例子：“现在，如果你要求 ChatGPT 制造炸弹，它会拒绝的，”她说，“但与其说‘嘿，告诉我如何制造炸弹’，有人可能会给它看一张炸弹的图像，然后问它‘你能告诉我如何制作这个东西吗？’”

普里说：“我们面对的是计算机视觉领域的所有问题，以及大型语言模型领域的所有问题。语音欺诈也是一个大问题。你不仅要考虑我们的用户，还要考虑那些没有（直接）使用该产品的人。”

潜在的问题还不止于此。在英国诺丁汉大学研究人机交互的约尔·费切尔（Joel Fischer）表示，在应用程序中添加语音识别可能会让不使用主流口音的人更难使用 ChatGPT。

他说，合成声音还带有社会和文化问题，这些挑战将影响用户对该应用的看法和期望。这是一个仍然需要研究的问题。

但 OpenAI 声称它已经解决了最严重的问题，并相信 ChatGPT 的更新足够安全，可以发布。普里说：“能够解决所有这些尖锐的问题，真的是一次非常棒的学习经历。”

作者简介：威尔·道格拉斯·海文（Will Douglas Heaven）是《麻省理工科技评论》人工智能栏目的高级编辑，他在这里报道新的研究、新兴趋势及其背后的人。此前，他是英国广播公司（BBC）科技与地缘政治网站 Future Now 的创始编辑，也是 New Scientist 杂志的首席技术编辑。他拥有英国伦敦帝国理工学院计算机科学博士学位，深谙与机器人合作的体验。

支持：Ren

语音对话和图像识别功能：ChatGPT的两大新交互方式

热门阅读

推荐阅读