据美国《纽约时报》(NYT)报道,在人工智能(AI)开发方面处于领先地位的美国开放AI公司29日(当地时间)展示了使用15秒的录音人声合成与录音人声相同的语音并阅读文章的技术。
Open AI公司以少数业内人士为对象演示了语音引擎(Voice Engine)技术。
任何人只要上传读一段左右的文章录音的声音,就能合成和那个人读的一样的声音来阅读文章。
特别是用新技术制作的声音可以用其他语言表达,与录音者的语言无关。例如,即使是英语使用者也可以用西班牙语、法语、汉语等所有语言说话。
Open AI公司担心语音引擎技术具有潜在的危险性,没有向公众公开技术。因为和照片和视频生成人工智能技术一样,声音生成技术也可以通过社交媒体传播假货。很有可能通过假装难以区分的声音打电话等方式被用于犯罪。
Open AI公司特别表示,在网上银行等各种安全媒体上,声音认证方法可能会失效。
作为替代方案,Open AI公司正在考虑在合成语音上加水印或控制政客等知名人士的声音合成。
Open AI公司上月也公开了视频生成技术Sora,但由于没有向公众公开语音引擎等原因,没有向公众公开。
除了开放AI公司之外,谷歌等技术大企业和Eleven Labs等新生企业也一直在开发视频或语音生成技术。
利用该技术,可以制作有声读物、用于在线聊天机器人或创建自动化的广播DJ电台。Open AI公司从去年开始将该技术应用于聊天GPT程序,并向企业销售基于各种声优声音生成的声音应用程序。
但Open AI公司认为,通过简短的语音录音轻松合成声音的通用语音引擎危险性较大,因此没有推出。特别是有选举的今年的危险性更大。
实际上,今年1月,新罕布什尔州的一位居民接到了一个自动录音电话,内容是不要投票用人工智能生成的声音录制的州初选,如乔·拜登总统的声音。此事发生后,联邦通信委员会(FCC)将这种方式的电话非法化。
Open AI表示,目前没有通过该技术赚钱的计划。只是表示可以帮助那些在疾病或事故中失去声音的人。
在技术演示中,Open AI用语音引擎技术重塑了接受脑瘤手术后失声的女性的声音。以高中教师时期录制的简短演示为基础,让他可以自由说话。