「探索」ChatGPT的发展历程:全网热议的“最强AI”是如何实现的?

发表时间: 2022-12-08 10:44

记者 | 李京亚 姜菁玲

编辑 | 宋佳楠

在美剧《硅谷》中,曾有这样一幕有趣的剧情:程序员Gilfoyle用AI聊天软件“安东之子”捉弄他的好友Dinesh。该软件能模拟独属于Gilfoyle的闷骚幽默,让Dinesh误以为是在与Gilfoyle本人聊天。发现真相后,同为程序员的Dinesh也做了一个AI机器人用来报复Gilfoyle。结果,两个AI机器人热聊了起来,还把网络给聊崩了……

这样的场景已经走入现实。美国人工智能实验室OpenAI推出的语言模型系统GPT-3就曾构建出两个人工智能之间的对话,谈论如何成为人类,令看客大呼脊背发凉。

但OpenAI并未止步于此,而是将GPT-3进化为最近风靡全网的ChatGPT,后者不仅在大量网友的“疯狂”测试中表现出各种惊人的能力,如流畅对答、写代码、写剧本、辩证分析问题、纠错等等,甚至让记者编辑、程序员等从业者都感受到了威胁,更不乏其将取代谷歌搜索引擎之说。

作为OpenAI的幕后老板,尚在主导推特变革的马斯克也公开表达了对ChatGPT的力挺,认为“我们离强大到危险的AI不远了。”

全球用户争相晒出自己极具创意的与ChatGPT交流的成果。一位网友要求ChatGPT用《坎特伯雷故事集》风格改写90年代热门歌曲《Baby Got Back》;有网友晒出ChatGPT参加美国高考SAT考试之后的得分:1020(总分1600分);亦有网友收获了ChatGPT用《老友记》几大主角口吻创作的剧本对白。

据OpenAI的CEO,硅谷著名投资人山姆·奥特曼(Sam Altman)透露,自11月30日至12月5日,ChatGPT的用户数量已突破100万。由于太过火爆,OpenAI不得不暂时关闭了用户的测试入驻窗口。

可以说,继AlphaGo击败李世石、AI绘画大火之后,ChatGPT开启了人工智能对人类社会产生深远影响的又一扇窗。不禁让人好奇,它究竟是怎么做到的?

为何是ChatGPT?

如果用一句话来说明ChatGPT是什么,可以将它理解为由AI驱动的聊天机器人。

外界往往认为语言学领域是人工智能派上用场的绝佳地带,而事实并非如此。截至目前,人工智能还没有找到征服语言领域的暗门,即使是谷歌、苹果这样的顶级科技公司,都面临着相关AI研究成果派不上用场的苦恼。

尚处在免费试用阶段的ChatGPT,关注度短短几天扩大到燎原之势,正是因为人们从中看到了人工智能和语言本体之间的真正接口。

那么,ChatGPT采取了什么方式达到了如此惊艳的效果呢?为何苹果的Siri至今无法生成一篇学术论文,亚马逊的Alexa无法吟出一首莎士比亚十四行诗呢?

过去十年间,谷歌、 Facebook、亚马逊、苹果和微软等硅谷科技巨头纷纷开启AI军备竞赛,先后成立专门的AI实验室,而最终业界公认的做纯AI研究的顶级实验室只有三家:背靠谷歌的DeepMind、背靠微软的OpenAI和背靠Facebook的FAIR。其中,被谷歌收购的DeepMind因拥有AlphaGo最为家喻户晓。

OpenAI在2015年底创立于旧金山,其联合创始人是马斯克以及硅谷知名孵化器Y Combinator的前掌门人奥特曼。不过,近年马斯克多以OpenAI的出资人角色出现,奥特曼才是这家公司的主导者和现任CEO。

不到五年时间,OpenAI就依靠GPT3跃升为全球AI领域顶级公司,与DeepMind并称AI圈的“双子星”。事实上,Meta的Fair实验室也一直在自然语言处理和对话型AI领域深耕,但其成果以发表论文为主,显得较为低调。今年6月,大举向元宇宙转型的Meta决定AI部门不再“集中化研究”,而是分布式下放,以便与实际业务结合,导致Fair的前途并不明朗。

OpenAI足以与AlphaGo一战的“武器”正是GPT3,这个2020年推出的巨型语言处理模型怪兽,可以完成诸如答题、写论文、文本摘要、语言翻译和生成代码等壮举,其诞生被视作人工智能竞赛的里程碑事件。

ChatGPT的前世今生

如果梳理OpenAI的GPT(Generative Pre-trained Transformer)系列技术路线,可以探寻出OpenAI的布局思路。

OpenAI最初提出的GPT1,采取的是生成式预训练Transform模型(一种采用自注意力机制的深度学习模型),此后整个GPT系列都贯彻了这一谷歌2017年提出,经由OpenAI改造的伟大创新范式。

简要来说,GPT1的方法包含预训练和微调两个阶段,预训练遵循的是语言模型的目标,微调过程遵循的是文本生成任务的目的。

2019年,OpenAI继续提出GPT-2,所适用的任务开始锁定在语言模型。GPT2拥有和GPT1一样的模型结构,但得益于更高的数据质量和更大的数据规模,GPT-2有了惊人的生成能力。不过,其在接受音乐和讲故事等专业领域任务时表现很不好。

2020年的GPT3将GPT模型提升到全新的高度,其训练参数是GPT-2的10倍以上,技术路线上则去掉了初代GPT的微调步骤,直接输入自然语言当作指示,给GPT训练读过文字和句子后可接续问题的能力,同时包含了更为广泛的主题。

现在的ChatGPT则是由效果比GPT3更强大的GPT-3.5系列模型提供支持,这些模型使用微软Azure AI超级计算基础设施上的文本和代码数据进行训练。

具体来说,ChatGPT在一个开源数据集上进行训练,训练参数也是前代GPT3的10倍以上,还多引入了两项功能:人工标注数据和强化学习,相当于拿回了被GPT3去掉的微调步骤,实现了在与人类互动时从反馈中强化学习。

也因此,我们得以看到一个强大的ChatGPT:能理解人类不同指令的含义,会甄别高水准答案,能处理多元化的主题任务,既可以回答用户后续问题,也可以质疑错误问题和拒绝不适当的请求。

当初,GPT-3只能预测给定单词串后面的文字,而ChatGPT可以用更接近人类的思考方式参与用户的查询过程,可以根据上下文和语境,提供恰当的回答,并模拟多种人类情绪和语气,还改掉了GPT-3的回答中看似通顺,但脱离实际的毛病。

不仅如此,ChatGPT能参与到更海量的话题中来,更好的进行连续对话,有上佳的模仿能力,具备一定程度的逻辑和常识,在学术圈和科技圈人士看来时常显得博学而专业,而这些都是GPT-3所无法达到的。

尽管目前ChatGPT还存在很多语言模型中常见的局限性和不准确问题,但毋庸置疑的是,其在语言识别、判断和交互层面存在巨大优势。同属于生成式AI范畴,ChatGPT在速度上已经比DeepMind研究人员提出的聊天机器人Sparrow(麻雀)模型领先一步。

有分析指出,OpenAI一直坚定不移的只用自然文本的上文来训练模型推动了GPT3到ChatGPT的成果,其顺应了人类思考的逻辑,最终由量变推动了质变。

商业模式的通路与障碍

不少人已经注意到,ChatGPT的能力已经涉及到AI模型之间的合作:一位网友要求ChatGPT写一个描述女孩的文案,然后用ChatGPT生成的文案画出了女孩的图像。

除了GPT系列之外,Open AI其实另有一条多模态领域研究支线闻名于世,即今年发布的明星产品——人工智能图像生成器DALL-E2。以DaLL E2为代表的Diffusion Model(扩散模型)几乎完成了此前爆火的AIGC(人工智能生成内容)领域的“大一统”,为AI绘画树立了全新标杆。

顶级技术能力之外,OpenAI能抢在谷歌和Meta之前重新书写AIGC版图,与其精细化的布局相关。

OpenAI月内的两笔收购都切中AIGC的增长点交叉地带,一桩投给了音频转录编辑器Descript ,一桩落子在AI笔记应用Mem。前者的处理场景刚好是文本、图片、音频以及视频,后者的技术底座是Transfomer模型,与ChatGPT同源。也就是说,OpenAI在打造自身处理下游任务的能力的同时,也在寻觅能承载下游任务的容器。

OpenAI的研究领域包括机器学习、自然语言处理和强化学习,其能在短短几年间迅速崛起,与创始人奥特曼对AI的创意性理解力密切相关:“十年前的传统观点认为,人工智能首先会影响体力劳动,然后是认知劳动,再然后,也许有一天可以做创造性的工作。现在看起来,它会以相反的顺序进行。”

在YC,奥特曼以激进大胆的投资风格著称,因其秉承直击腹地的简洁思维,备受创业者青睐。YC曾有创始人称奥特曼为“创业公司的尤达大师”(《星球大战》中的绝地武士导师)。

这位CEO还有着实事求是的性情,当外界对GPT-3的能力发出铺天盖地的赞美时,他反而说“GPT-3被吹捧得太过了”。此后GPT-3在一系列问答中闹出笑话、表现不佳,也印证了他的说法。

但奥特曼的冷静挡不住幕后金主马斯克对ChatGPT抱持的极大热情,他十分关注ChatGPT的商业化前景,并在推特上向奥特曼提问,“ChatGPT每回答一个问题的成本是多少?”奥特曼则如实地答道:“每次对话的平均费用可能只有几美分,我们正试图找出更精确的测量方法并压缩费用。”

实际上,谷歌和Meta等巨头目前都尚未将生成式AI领域的研究能力转化为商业化部署,作为创业公司的OpenAI却做了不少尝试。

这家公司曾希望通过API(应用编程接口)方式来推动GPT-3的技术商业化,在2020年6月就开放了GPT-3的API接口,并曾与十余家公司展开过初步的商用测试,但由于GPT-3的功能并不完善未见成效。曾有传言称OpenAI为GPT3投入了至少1000万美元,为了摆脱入不敷出的窘境,才将GPT3作为一项付费服务来推广。

据虎嗅报道,Facebook改名为Meta之后,Meta AI实验室在5月宣布开放自己的语言大模型OPT(预训练变换模型),而OPT一直对标OpenAI的GPT3。与之类似,硅谷大厂内部都有对标GPT3的产品,只是因为大厂都是关起门来做私密研究,因而不为外界所知。

某种程度上,ChatGPT采取免费试用是OpenAI准备继续打磨这款产品的信号,用户给予的反馈会帮助该模型吸取足够的信息量,从而作出更恰当的反应。

从GPT-3开始,ChatGPT及尚未出炉的GPT-4都面临训练成本过大的问题。有分析指出,是否收费是个两难决策:如果继续免费,OpenAI会无法承受,但收费又会极大减少用户基数。倘若训练成本能大幅下降,则两难自解。

此外,GPT-3历经两年商业化尝试,并未“如愿”取代记者编辑或码农的职业生涯,OpenAI也从中发现,将GPT系列作为辅助生产力工具对商业化更为合适。此前业内传言微软对这家公司的新一轮注资即将落地,届时其估值预计超过200亿美元,商业化也必将提上日程。到那时,OpenAI可以倚仗的大概率是ChatGPT,或者是通过了图灵测试的GPT4。

一片叫好声中,也不乏有人泼来冷水——程序员首选问答社区Stack Overflow日前便宣布,禁止用户复制ChatGPT的答案来回答其它用户的问题,理由是ChatGPT的答案正确比率太低,日后待社区讨论后再作出解禁决定。

此举立刻引发了业界普遍关注,仿佛是对ChatGPT编程价值的彻底否定。与此同时,人工智能界的专家们也在激辩这些大型语言模型可能带来的负面效应,比如Meta的首席人工智能科学家Yann LeCun认为,虽然它们会有错误信息和不良输出,但并不会使文本的实际分享变得容易,而后者才是造成危害的真正原因。但也有人反驳称,这些语言系统的廉价文本生成能力必然会增加其后被分享的风险。

而在OpenAI内部,一年半前曾遭遇核心员工集体出走,创办了一家名为Anthropic的新公司,致力于提高AI安全和可解释性,目前筹资已超过7亿美元,业内亦有声音认为,这支“AI叛逆者联盟”说不定会是另一个OpenAI。