OpenAI 展示如何打造合成语音的新技术

发表时间: 2024-03-31 21:27

OpenAIOpenAI 语音引擎

OpenAI 正式发布了语音引擎,这是一种用于语音生成的神经网络模型,自 2022 年底以来一直在开发中。她只需要一个 15 秒的音频样本来创建合成声音。之后,人工智能能够根据给定的文本生成录音,包括不同语言的录音。

事实上,ChatGPT 聊天机器人已经使用了语音引擎技术来大声朗读生成的文本。只有预设的声音,而新技术有可能模仿任何声音。出于这个原因,OpenAI还没有准备好大规模部署神经网络,担心它可能被用于不道德的目的。

“我们希望就负责任地使用合成声音以及社会如何适应这些新机会展开对话。根据这些对话和小型试验的结果,我们将就是否大规模实施这项技术做出更明智的决定,“该公司在一篇博客文章中表示。

OpenAI 网站提供了语音引擎工作原理的示例以及该技术的几个潜在用例:

  • 帮助儿童和不能阅读或不能阅读的人用自然、情绪化的声音阅读,这些声音代表了比预设声音更广泛的说话者。
  • 翻译视频和播客等内容,让创作者和企业能够用自己的声音触达全球更多人。
  • 通过改善偏远地区基本服务的提供,覆盖全球社区。
  • 由患有影响言语的疾病的人使用。
  • 帮助人们从突发性或退行性言语障碍中恢复声音。

有权访问语音引擎的 OpenAI 合作伙伴已同意公司的政策,禁止在未经同意或合法权利的情况下冒充其他个人或实体。

“我们认为,合成语音技术的任何广泛采用都应该伴随着语音认证,这确认原始说话者故意将他们的声音添加到服务中,以及被禁止的声音列表,以识别和防止创建看起来太像名人的声音,”该公司表示。