肖仰华教授:ChatGPT代码解释器的重大突破

发表时间: 2023-07-14 08:12

·ChatGPT代码解释器测试版开放后,用户即使不是程序员,也可以用自然语言向ChatGPT下达指令完成复杂编程任务,这可能会产生两个重大影响:消灭语言鸿沟;重塑产业形态。

·未来大模型快速迭代将有两个趋势:第一,ChatGPT一定会朝着更大规模、更多样的数据学习,同时结合私域专业性更强的数据,旨在开展更有宽度的学习;第二,它会加大数据解析程度,一定程度上可以认为是在开展更有深度的学习。

ChatGPT代码解释器测试版正式向所有ChatGPT Plus用户开放,能够利用人类的自然语言作为指令,去驱动大模型完成数学运算、数据分析、专业图表绘制,甚至生成视频、分析股票市场。

“OpenAI的ChatGPT能力又升级了,它已经完成从工具到助手的升级,这次又从普通助手升级为专业助手。”7月12日,复旦大学教授、上海市数据科学重点实验室主任肖仰华向澎湃科技(www.thepaper.cn)谈到OpenAI近日的重磅发布:ChatGPT代码解释器(Code interpreter)。

北京时间7月9日,ChatGPT代码解释器测试版正式向所有ChatGPT Plus用户开放,其能够利用人类的自然语言作为指令,去驱动大模型完成数学运算、数据分析、专业图表绘制,甚至生成视频、分析股票市场。

也就是说,用户即使不是程序员,也可以用自然语言向ChatGPT下达指令,进而完成复杂编程任务。这被外界评价为“GPT-4有史以来最强大的功能”。

“用个不恰当的比喻。”肖仰华说,“可以看得出来OpenAI应该是’蓄谋已久’,他们一直在努力提升大模型的多模态交互能力。”多模态交互是利用自然语言驱动图像、专业图表等多模态任务的能力。

变成这样的专业助手意味着什么?“意味着即便是很多专业性很强的工作,ChatGPT都有能力完成。可以说,其可以胜任一些大学相关专业本科生的工作,比如数据科学专业。”肖仰华说。

“数据解析能力决定大模型将来能获得的能力”

对于ChatGPT为何选择在这个方面进行升级,肖仰华认为,这得益于数据的深度解析与学习,此类数据广泛存在,大部分论文本质上就包含各个学科的专业性数据分析。前面几个版本的GPT主要侧重于文本数据的有效利用,但对于这些数据中图表、格及其与文本之间的对应关系,利用比较粗放简单。这一次的升级实际上得益于从专业文献等数据中进行深度解析,建立文本于图表与公式的对应关系,使得GPT习得了通过自然语言交互驱动图、表的制作能力。

从这样的发现中,肖仰华得到了技术研发上的一个启示:“这种对于语料的深度解析能力很有可能是决定大模型能力的核心因素之一,大模型的研制无论何种程度地重视数据都不为过。

对于ChatGPT,肖仰华认为,OpenAI一直以来努力的方向都是寻求更多的优质数据,深度解析已有的数据,从而使自己的能力越来越强大。所以获取大规模、高质量、多样性的数据,并深入解析这些数据,可能是推动大模型发展重要思路之一。”

“消灭语言鸿沟”

总体看待此次ChatGPT的能力升级,肖仰华认为其中有两个可能产生的影响值得关注:第一,“消灭语言鸿沟”;第二,重塑产业形态。

什么是语言鸿沟?自计算机发明以来,人类希望让计算机按照自己的意愿完成各种设定任务,这需要专业人士通过非自然语言或者形式化语言表达意图、下达指令,如早期的汇编语言,后来的C++高级程序语言、结构化查询语言如SQL等。而人类沟通与交流的语言是自然语言。

西方传说中,上帝为了阻止人类建成通天的 “巴别塔”,变乱了人类语言,使得人类之间语言不通,永远没有办法真正达成沟通、理解他人。肖仰华认为,机器和人类之间也存在着这样的情况,至少机器一直以来都无法准确理解人类的自然语言,所以实际上人类一直迁就机器,将自己的意图转换成各种各样的形式语言。

然而,计算机要完成的任务存在于千行百业,肖仰华说,这意味着为了完成不同的任务,专业人员就要学习不同的语言,比如专门面向芯片设计的语言、专门面向办公自动化的语言。这些都需要经过复杂培训才能掌握,所以每一项专业任务都需要经历复杂的语言学习,为人们从事某个行业设定了较高的语言门槛。

但现在看来,肖仰华判断,“这些所有的形式语言都不必要了,基本上可以被自然语言代替。”某种程度上而言,可以认为机器“理解”了人类的自然语言,同时也理解了各种专业的形式化语言,可以把人类各种自然语言所表达的意图准确转换成相应的形式语言,比如编程的语言和芯片设计的语言。

这就是消灭了语言鸿沟,机器“理解”人类不再存在障碍。 “如果说ChatGPT的初版消灭了人机之间的自然语言表达鸿沟,这次带有Code Interpreter功能的ChatGPT则消灭了人机之间的专业语言表达鸿沟。”肖仰华认为,这将有非常深远的影响,是里程碑意义的成就。

“很快,像数学语言、物理语言等人类从事非常专业性工作所需要的‘语言’能力,以及相应的思维能力和解决问题的能力,大模型将会逐步胜任。因为,从原理上这是相通的,数学家籍以开展研究工作所需要的数学语言也是一种形式语言而已。只要能够拿到自然语言和相应专业语言的配对数据,大模型就有机会习得。而这些数据广泛存在于论文中,还可以通过广泛应用的专业软件,比如MATLAB,进行数据合成,进而进一步缓解大模型专业能力学习时的数据稀缺问题。”肖仰华说。

专业性岗位还有无必要?

这就意味着,以后大部分需要一些掌握专业语言才能够胜任的专业性工作,大模型或许都能完成得不错。这也带来一个值得深入思考的问题,肖仰华问道:我们还有没有专业人士的发展空间,或者说其工作岗位有无必要性?

在肖仰华看来,随着大模型能力提升,所有借助语言完成的工作将来都会分成三个步骤:第一步提示(prompt),第二步生成,第三步评价。

“很显然现在这些生成的工作,不管是专业性还是非专业性的,都可以交给大模型。但专业人士仍然有其价值所在,比如写提示词,如何提示大模型生成所需要的专业性图表,以及如何评价分析其生成结果的对错好坏。这些方面人类仍然有其优势,或者说短期之内大模型仍然需要较大的完善才能够胜任。”肖仰华说,所以这将重塑产业形态。

更进一步而言,大部分内容生成相关的任务和分析型工作,都将会被分解成很多个细分步骤,其中重复性、常规性、生成式的细分步骤将逐渐交给大模型,将传统小模型擅长的细分任务交给小模型,将仍然只有人类擅长的细分任务交给人类。肖仰华认为,将复杂任务分解成多个步骤(分解),再由大模型、小模型、人类完成其所擅长的步骤(重组),这种“分解+重组”模式将是未来重塑产业形态的基本趋势。

大模型快速迭代的两个趋势

对于此次更新是否代表着GPT-4.5出现,肖仰华认为这并非关键,但这个问题如此引起关注,背后实际上反映了人类对大模型快速迭代的担心,一定程度上体现了大家对其可能带来的社会冲击的担忧。在他看来,这种担心不无道理,“在它快速迭代的情况下,至少我们理解它的速度显然可能是跟不上它的迭代速度。我们甚至要主动按下大模型研发的暂停键,好好去思考其到底能做什么、不能做什么。”

对于大模型快速迭代的两个趋势,肖仰华认为,第一,现在ChatGPT主要是以公开的数据学习为主,其一定会朝着更大规模、更多样的数据学习,同时结合私域专业性更强的数据。第二,它会加大数据解析程度,一定程度上可以认为是提高学习的深度。也就是说这是两个维度,一个是学得越来越广博,一个是旧的数据学得越来越专、越来越深。

“这是这次版本出现的一个非常重要的思路,实际上很有可能数据还是那些数据,只不过学得更深入。”肖仰华继续说,“如果每一个领域的大模型是割裂而无法融合的,那么其能力或许还在可控范围内。但如果像ChatGPT这样拥有强大通识能力、又不断结合各个私域数据进行学习,那么其能力升级可能会在我们的预期之外。所以推动大模型向安全可控的方向发展势在必行、迫在眉睫”。