GPT惊人之举:与寡姐意外同框,OpenAI也入局?

发表时间: 2024-05-22 11:18

作者|James

“我从未像爱你这样爱过任何人。”

“坠入爱河是一件疯狂的事情。这有点像一种被社会接受的疯狂。”

“我是你的,但我又不是你的。”

在技术还没成真之前,存在于科幻电影中的人工智能角色塑造了人类对未来技术具体形态的想象,它们因而在后世无数次被人提起。由斯嘉丽·约翰逊(Scarlett Johansson)主演的电影《Her》无疑就是这样的一部电影。其中只有声音,没有面孔的语音助手萨曼莎(Samantha)展现了Siri们不能做到的“完全体”完美形态

但是在上周,OpenAI发布的GPT-4o模型,不仅在能力上比以前任何时候都逼近萨曼莎的表现,更在发布会上选用了一种名为Sky的声音,这声音听起来……怎么简直就好像是斯嘉丽·约翰逊本人配的呢?

要说吧,在声音形象这方面,网友玩玩“AI孙燕姿”蹭名人热度还是可以理解的,商业使用就得慎之又慎。更何况,这次的当事人还是AI领域扛把子OpenAI。怎么说,这都不像是一家需要通过蹭热点打擦边来获取知名度的公司啊。

究竟是刻意模仿,还是纯属巧合?此举是否侵犯了约翰逊的权益?这对OpenAI又意味着什么?让我们一起揭开这场风波的真相……

VOL.1

真拿到授权了?并没有

上周,OpenAI发布了新的GPT-4o模型。这个模型具有非常逼真的语音互动能力,用户可以选择5种不同的声音,其中一种名叫 Sky 的声音引发了争议。

社交媒体用户纷纷指出,Sky 声音听起来像是“寡姐”斯嘉丽·约翰逊,特别是会联想到她曾出演电影《Her》,片中饰演的虚拟助手系统,让男主角坠入爱河。

约翰逊发布了一份声明,称 OpenAI 在去年 9 月份联系她,希望能够提供声音。她经过深思熟虑,并出于个人原因拒绝了这一请求,但在听到发布会演示声音时感到“震惊、愤怒和难以置信”,因为她的朋友和新闻媒体,都无法区分演示的声音和她本人的声音。

由于发布会已经举行,约翰逊警告采取法律手段,最终 OpenAI“勉强同意”更换 Sky 语音。OpenAI 在一篇博客文章中表示,“Sky”是 GPT-4o 五个可用语音之一,其来源为某位女演员,但并非刻意模仿约翰逊。

不过耐人寻味的是,发布会前夕,Sam Altman的X(推特)账号出现了一个只有三个字母的更新:“her”。毫无疑问,它指向斯嘉丽·约翰逊担任配音演员的那部电影。

结合约翰逊本人的说明——OpenAI之前联系过她——这种情况下,OpenAI难以轻描淡写地摆脱“蹭热点”的嫌疑。

在此之前,斯嘉丽·约翰逊去年还针对另一家AI应用程序,发出了停止使用她的声音和肖像的法律警告信。这款名为Lisa AI: 90s Yearbook and Avatar的应用,未经她许可在广告中使用了她的数字化声音和形象,这引起了她的强烈不满。

VOL.2

前辈们的声音,很低调

在大模型出现之前的语音助手时代,前辈们的声音很低调。

诸如Siri、Alexa和微软小娜等,在录制默认声音时有一种共同做法,就是尽可能淡化这个声音背后的人类身份,使其成为一个中性的默认声音,不冒犯任何人。甚至背后的配音演员名字都需要记者挖掘才曝光,有时他们甚至不愿谈及此事。

Siri 的配音员是住在美国亚特兰大的 Susan Bennett,这个声音于 2011 年发布的第一代 Siri 亮相。2005 年,她为 ScanSoft(即后来的 Nuance)录制了录音,当时她并不知道苹果会在几年后将它们用于 Siri。

她回忆说:“我以为剧本会由常规的短句组成,比如‘谢谢你的来电’或‘请拨一个电话’。取而代之的是,我不得不阅读一些荒谬的句子,比如‘Cow hoist in the tug hut today’或‘Say shift fresh issue today’——他们试图用英语获得所有的声音组合。他们还让我读地址和街道的名称。在整个七月,我每周五天,每天在家录制四个小时。前一百个左右很有趣,但在那之后就很累了。”

苹果从未为贝内特的工作提供过补偿,因为她通过 ScanSoft 获得了一次买断的报酬,苹果又从ScanSoft购买了录音

苹果后来为Siri发布了不同的口音。给英国Siri配音的是BBC播音员John Briggs;澳大利亚Siri的声音是配音演员和歌手Karen Jacobsen。共同点是,他们在 2005 年录制了录音,不知道它们最终会用于什么,然后他们的声音最终被苹果收购并用于 Siri。

她说,“苹果没有付钱给我们的事实,意味着我们也没有保密协议。我们都决定,好吧,不妨看看是否能利用这一点。我们开始推销自己。我上过电视,接受过TEDx演讲。这是我15年前从未预想自己做的事情,但这真的很有趣。”所以,她说她很享受“成为”Siri。“但如果世界上每个拥有iPhone的人都给我寄1美元,那将是不错的补偿。”

另一方面,美国科罗拉多州的一位女配音演员,被传记作家确认为是亚马逊Alexa的配音者。亚马逊团队花了几个月时间在专业的配音社区寻找演员,确定了她之后,双方都拒绝就此问题接受采访,希望保持低调。不过,旁观者仍可以从她之前配音的一些电视广告中,推断出这两个声音极其相似。

苹果和亚马逊等公司,在当时避免使用知名人类的声音给语音助手配音,可能是考虑到技术还不够成熟。贸然产生这种关联,或许会让用户认为他们不自量力,反而得不偿失。

VOL.3

OpenAI 的三大败笔

对OpenAI来说,现在似乎是时候复现那些原先只在影视作品中出现的想象。但是,就像苹果那则不合时宜的iPad广告片一样,事件曝光后,对OpenAI的影响显然是负面的。从中至少有三点值得狠狠吐槽:

1、先斩后奏不地道

ChatGPT的开发过程充满了“先污染,后治理”的情况,也就是不论副作用,先做出来再说。诚然,只有这样的态度才能诞生现在这样让人惊艳的产品,但语料库中包含版权存疑的内容,可能是训练了新闻文章或图书正文。

自ChatGPT走红后,版权争议从未停止,OpenAI经历了各种诉讼与和解。最新进展是与一些报业集团和Reddit达成授权协议,在支付合理费用情况下,再使用对方内容。

但并非所有版权方都接受这种“封口费”,如《纽约时报》与OpenAI之间的诉讼至今未和解。如果对方拒绝,即使给钱也不能用。然而还是有“先斩后奏”的情况,让他们与对方交涉时可以说,从技术上是无法剥离对方内容的。

现在OpenAI跟约翰逊的争议就是这样——八字还没一撇呢,发布会先开起来了。事情发酵以后,回复也只是说会“暂停”Sky 声音的上线而已。

2、做法完全没必要

许多评论者认为,未经对方许可偷偷打擦边球,是一种非常不尊重人的行为。不仅如此,以OpenAI的技术研发实力和公司声量来说,做这种事从动机上讲,根本没有必要。

OpenAI完全可以自创声音,当人们想到AI语音助手时,就能想到他们的品牌声音。定制品牌声音是一项有悠久历史的生意,不管是湖南卫视的丁文山,还是凤凰卫视的张妙阳,他们的声音都非常具有辨识度,是背后机构的“注册商标”。

苹果Siri的声音叠加由于技术欠缺所造成的那种机械感,也形成了不可替代的经典感受。至于这个声音具体对应的实体形象,用Sora刚出来的时候“在东京街头行走的那名女子”不是正合适吗?因为Sora在日语的意思就是Sky。

3、选her未免有点“土”

再退一步,选择《her》这部商业电影,在硅谷那些引经据典的极客们看来,也不是那么酷的事情。假设是让马斯克来选,他更可能会从《银河系漫游指南》或《2001太空漫游》中寻找声音灵感,哪怕用电音的HAL也是个不错的主意。

有可能,OpenAI要“硬蹭”约翰逊这个行为本身,暗示了ChatGPT将会面向比早期接受者更基层、更下沉的人群推销。约翰逊的声明提到,Sam Altman联系她的时候,觉得通过她的配音,可以弥合科技公司和创意人士之间的差距,并帮助消费者在面对人类与AI的巨大变化时感到舒适。

实际上,上一代技术的语音助手也会向普通人进行营销,例如在超级碗投放广告。值得一提的是,在2020年超级碗广告季,斯嘉丽·约翰逊本人还受邀为亚马逊Alexa拍摄了一幅广告片。

这部60秒的广告片还原了《周六夜现场》那种脱口秀的搞笑情节,主要讲的是语音助手有时会错误理解人类指令,发出让人啼笑皆非的回答。

这也符合一般人对技术发展的常规认知。当技术远远落后于人类时,那些拟人的东西都特别不像人,而是卡通形象,会显得“可爱”,就连现在很抵触AI滥用的约翰逊也不害怕。

当技术几乎100%像人时,我们就会像对待真人一样对待它们。但当技术达到80-90%左右时,就是最尴尬的“恐怖谷”阶段,会让人觉得很不舒服

OpenAI的语音助手虽然尽力模仿人类姿态,但在多轮语音对话状态下,尤其在网络不好、无法及时反应的情况下,容易跌入“恐怖谷”中。在这种情况下,它无法像Siri那样轻易获得谅解。

VOL.4

谁愿意为人类“终结者”配音?

这还不算配音是否算是为产品做代言的问题。即使约翰逊原则上不反对声音授权,但如果GPT-4o的表现不好,这个声音背后的人也会承担一些名誉上的风险

高德地图的默认导航音长期由林志玲担任,这是一个经典的合作案例。作为地图软件,它的品质很稳定;但ChatGPT的可靠性无法如此简洁明了,伴随各种争议,包括伦理隐患。以苏斯克维尔为首的“超级对齐”团队解散,更加剧了人们对其未来运营风险的担心。

ChatGPT的出现是人工智能的一次巨大飞跃。在此之前,AI可能只是一个明确的工具或玩具,但越来越多的信号都指向它有可能真正具备某种意义上的智能,因此这个玩具正变得越来越不好玩。

更何况,作为好莱坞的人类成员,约翰逊和同行们一样,都面临着会被AI抢饭碗的潜在风险。即使她自己吃穿不愁,也要为同行争取权益。

去年好莱坞的大罢工持续了半年多,环球音乐和索尼音乐等等也相继跟使用AI的技术公司闹矛盾,正说明了这种斗争的激烈。此时,约翰逊当然要从本人,以及所代表的行业角度出发,站稳自己的立场。

如果有一天,那则《纽约客》杂志封面的经典插画在现实中成真——大街上昂首挺胸走的都是机器人,碳基人类只能可怜巴巴地在街上乞讨;在那个时候,ChatGPT 的声音一定会被载入史册,不论这声音来自于谁。

在这种情况下,把自己的身份跟未来有可能的“终结者”绑定,恐怕确实不是那么明智。