国产大模型“速胜论”被驳斥,ChatGPT仍未达到“基础模型”水平!

发表时间: 2023-03-21 18:17

整理 | 梦依丹
出品 | CSDN(ID:CSDNnews)

在经历寒冬、雾霾,甚至大家纷纷看不到希望之际,ChatGPT 犹如一场春雨,给做 AI 甚至 NLP 等研究的人带来了新的希望。

3 月 11 日,由中国人工智能学会主办,中国人工智能学会 NLP 专委会、真格基金、达观数据共同承办,中国信通院云大所支持的「ChatGPT 及大模型专题研讨会」正式举行。在圆桌对话环节,来自学术界、产业界及投资界的知名专家学者,就 ChatGPT 引发的新 AI 浪潮、大模型“基础模型”论、“国产类 ChatGPT ”所存在的差距与挑战展开高端对话。这些专家有:

  • 中国人工智能学会副监事长、清华大学教授马少平

  • 澜舟科技创始人兼 CEO、CCF 中国计算机协会副理事长周明

  • 中科院自动化所研究员、IEEE/ACL Fellow 宗成庆

  • 真格基金管理合伙人戴雨森

  • 华为人工智能科学家、北京邮电大学博士杨浩

  • 中国信通院云计算与大数据研究所人工智能部副主任曹峰(担任主持人)


ChatGPT 的火爆给 AI 带来了新希望


主持人(曹峰):ChatGPT 引发火爆关注的原因是什么?引发继 AlphaGo 以后又一轮人工智能的浪潮,究竟有着什么样的价值和意义?

马少平:ChatGPT 能取得成功,个人觉得与这三方面有关系:

  • 第一是意图理解能力,简言之就是对问题理解的突破;

  • 第二是语言生成能力;

  • 第三是多轮对话的管理能力;

AlphaGo 可以看到 AI 在专用任务上能做得很好,而现在大模型在相对通用的任务,也表现出色,这可能是引起大家特别关注的原因。

周明:在过去几年,AI 越来越走向寒冬,去年,国内在 AI 领域的投资基本约等于 0,就在大家觉得满眼雾霾时,ChatGPT 给人们带来了希望的光芒,照亮了前进的道路。ChatGPT 的爆火给做 NLP 的人带来了不少信心,说明沿着这条路是肯定有机会能走出来的

在一次哈工大的鉴定会上,我曾表示:自然语言是人工智能皇冠上的一颗明珠”。彼时,在场的专家学者觉得这句话对 NLP 在 AI 领域的地位总结的非常精准。所以说,这句话并非出自比尔·盖茨,但比尔·盖茨说完后,我们再出去讲的时候,就起点作用了。

宗成庆:我认为 ChatGPT 引人关注的原因有两方面,一是生活角度,如今人手一部或多部手机,大家都喜欢从网上看一些新鲜的东西;其次是从自然语言处理的角度来看,人们在体验 ChatGPT 的过程中,发现该对话系统生成的句子非常像人话,对比以往的对话系统,ChatGPT 生成的内容的确非常好,效果甚至惊人,而且应用领域也非常广,不管从什么样的领域,包括教育界、法律界、学术界,真正需要的信息咨询都会受到影响,影响的社会面非常大。另外,ChatGPT 对用户的意图理解非常准确,几乎能够准确地把握用户想问的绝大多数问题。

戴雨森:我觉得主要分为三点:

第一,体验门槛特别低,普适性强。以前自动驾驶、AlphaGo,如果不下围棋、不做自动驾驶,人们很难体会到那种神奇。但 ChatGPT,只要是你能说话,就能亲身体会,而且可以应用在很多领域,不只是文本续写或者吟诗作对,具有很强的普适性;

第二,传播性。可以通过简单的聊天截图传播,大量的截图满天飞,让大家发现它有很多神奇的能力;

第三,它给人的想象空间特别大。因为语言是人类思维的一个载体,甚至是思维本身的体现。大家看到 ChatGPT 后会思考,它对自己行业、工作的影响以及如何提效,这种想象力的空间是非常大的。每个人看到 ChatGPT 都会产生脑洞,这种脑洞会传播、会交流,所以带来更多关注。

杨浩:我这里补充说明一点,ChatGPT 把 AI 对 toB 的链接转换成了 toC 端,人人皆可体验,并且给大家带来很多信心;二点是很多人工反馈的数据进入系统,会使这个系统更好的演进,所以这个应用场景是更有意义的。比如我们最近在一些 ICT 的场景,网络设备运维日志时,以前假如这个问题不在我的答案里,回答得看上去傻傻地完全不沾边;但是现在发现它的整体意图没什么问题,就可能要补一些领域数据,这提升了普通用户对人工智能的连接,AI 天花板直接拔高了一大截。


多种工作或被 ChatGPT 替代

但也无需神话它


主持人(曹峰):我们看到 ChatGPT 没有太多行业特色或者行业应用趋势,大家能否为我们看看未来在 ChatGPT 以及大模型的驱动下,哪些行业是最有可能得到广泛使用或者可能被颠覆的?

周明:我们公司目前正在做大模型,叫“孟子大模型”,然后我们两条腿走路,左腿是自己真要训练出大模型,右腿是我不管从哪儿拿个大模型,网上扒下来的,或者买的 API 也行,怎么把大模型用好。当然,最后是希望用自己的大模型,自己的大模型用起来之前,最好两条腿分离一点,不要互相绊住了。

训练大模型需要智慧,用大模型也需要智慧,而这两个智慧不一定完全一样。用大模型的人是站在用户角度、行业角度,反过来对大模型提出要求。有时候,大模型的人不停地吹捧大模型必须要大才有效果,但那样是有代价的,大模型也意味着需要太多的服务器。而用户的需求可能并不需要这样的大模型,可能会需要小一点或者弱一点的模型。

首先,如何做好垂直领域的模型,把模型的体积降下来,无需追捧 ChatGPT 这样全智能的能力,在各行各业都有很好的应用。比如金融,金融是非常讲究降本增效的行业,从客服、营销、文案合同审核、智能投研、智能投顾、搜索图谱,所有的东西会认为都要用到大模型,那么一个金融机构最好有一个适合于自己各个业务场景的大模型,这个大模型不一定是 175B 的,有可能是 10B 的甚至 1B 的,但是要针对人家的数据和业务场景,用很容易的接入方式,各个业务部门容易接入到这个大模型中,然后快速提供答案和反馈,再不停地迭代,可能3、5天或1、2个月新的数据来了,再迭代。

第二,ChatGPT 讲究数据自我封闭,2021 年以后的数据就没有了,而这也不适用于金融行业,金融行业需要实时,需要一个可以动态访问金融数据库的接口,动态访问各种营销活动,然后给用户进行快速推荐等。在落地时,需要把大模型跟所有的业务场景全部打开,及时、快速、安全,如果这件事情能够做好的话,金融行业有很多客户可以展开使用。

其它行业也同样的道理,因为它都要对很多的认知智能、自然语言处理理解、问题求解、数据库访问、动态跟踪、客户推荐,其实都有很多同样的内容要求的。所以可以把同样的技术推广开来,来形成对整个业界的影响力。

宗成庆:哪个行业会首先受到冲击,其实这个问题不太好具体回答,因为它可以用到任何一个领域、任何一个行业,都可能会受到冲击。其实最容易被冲击的,是 NLP 研究的人,ChatGPT 一出来,有很多人问我:ChatGPT 做得这么好,你们做 NLP 研究还有什么用?我自己当然不担心失业,一方面 ChatGPT 还没有好到没有问题可研究的地步;另一方面,任何中低端的重复性强的工作被 AI 技术替代,这是不可逆转的趋势。

戴雨森:我有一些小总结:

第一,它是“超级缝合怪”。我们所从事的工作中,有 95% 以上可能都是在做“缝合怪”的事情,比如设计师干的很多事情是把已有的东西缝合在一起,程序员是把已经写过的代码组件缝合在一起,作家是把已经有的很多语料缝合在一起。当生成式模型变得很强大时,未来大家更在意原创东西的价值,要真正原创出 AI 里没有的东西,因为语言模型、扩散模型可以瞬间把全人类已经有的东西缝合在一起,所以第一个问题是“超级缝合怪”的出现导致原创思维特别重要。

第二个,它是超级界面。以前人要适应机器,我们去操作电脑、PC、手机,人类要服从计算机的范式,键盘、鼠标或者触摸屏。但是人最核心的交互其实是语言,每个人都会用语言交流,但是之前跟 Siri 等无法实现真正的自然语言交流,因为卡在语义理解、多轮对话等很多地方,但 ChatGPT 出现后,让我们看到人和机器能够真正交流,不用人更多服从于机器的范式,而是机器更多服从于人的范式。

第三个,超级陪伴。我们在生活中对别人的价值很多时候体现在语言上,现在有陪玩、陪聊,甚至我们从没见过的一个人。最近两年,“元宇宙”的概念很火,但后来发现元宇宙没有意思,因为元宇宙里面没有人,元宇宙是荒芜的。之前大家觉得 Meta human 可能是长得像人,但是实际上最重要的是它要能够像人一样去沟通。所以有人看到 ChatGPT 的聊天记录以后被震惊了,因为在这个过程中看到机器越来越像人,或者越来越难以被区分,这是图灵测试的意义。

在游戏、社交或者针对老年人和小孩的陪护里,人所起到的陪伴性价值演的陪护是能够被替代或者部分被替代,这是之前技术没有实现的目标,现在我们看到了可能的趋势。当然,可能这个脑洞比较大,但是从投资机构的角度来讲,至少 ChatGPT 让我们从以前的不可能,到现在的可能。

杨浩:我觉得接下来被替代的一个肯定是干重复工作的。但是从正面角度来看,只要不停学新的东西,并且尝试做“dirty work”,我们都是看到好的,你找到几个 ChatGPT 不好的 case 了吗?你发现它的不好了吗?它不好在哪个地方?可能的原因是什么?你真的去尝试一下。

现在国内确实有个瓶颈,ChatGPT 带来的算力的瓶颈非常高,真正有能力复现这个模型的人、真正去看问题的人,其实难度很大。那么如何找周围的资源,产学研一起合作,去搭建环境,去分析里面的不好案例是一个很大的突破点。而不是别人说好,你也说好,那你就被淘汰了。别人说好,你找到不好,然后分析这个不好,那就取得更大的突破了。

马少平:对于这个问题,因为我一直在学校,所以相对来说对应用了解得比较少。我想从一个原则来说,就是人工智能的应用原则,我想这个应该是一样的原则:

第一,它万一出现什么大的错误,对我这个系统不会带来什么伤害,刚开始 ChatGPT 出来的时候,人家问我有什么应用,我第一个想到的就是陪老人聊天,聊错了也没关系,哪个电影的主演说错了也关系不大,或者跟游戏有关的,错了也没什么事。

第二个,它作为辅助可以提供一些决策或者几个方案,最终的决策者还是靠使用者自己。我当时举的例子是就像输入法,输入法输入一串拼音,它给你若干个选择,最终是哪个字,由你自己选择,这样的输入法才能用。如果输入法把这句话自动输入进去,没有给你选择权,这个输入法用不了。所以它只是辅助,然后最终决策是靠人在决策。

第三个,具体应用中允许一定的误差,但是这个误差的多少由你自己定,是千分之一还是万分之一,只要在你的原则之内就可以。比如过去出版业精品的水平也就万分之一的错误,包括生产线上产品检测,只要能满足错误率就可以。

具体应用时,第一,满足不满足这些原则,第二,不满足的话,是否有办法或者利用其他知识使其满足。


当下大模型还没达到“基础模型”状态


主持人(曹峰):我们也看到李飞飞等科学家把大模型一开始叫“基础模型”,请问几位专家,怎么理解它从“大模型”到“基础模型”这个概念理念上的变化?第二,如果它真正成为基础以后,对技术研发、产业应用、行业推广有其他变化吗?

杨浩:我觉得有两点:

第一点,作为基础模型形成一定的范式,或者现在所有的人工智能模型基本都基于 Transformer,应用的开放瓶颈大幅度降低,推动业界发展。相当于大家学习时把小学变成六年,然后初中三年、高中三年,这个规范化的操作,产生更大的价值。

第二点,它推动上下游行业的提升。比如大家比较关心华为的芯片,在这上面也有一些探索,面向特定算法,在 GPU 和 CPU 之间数据交互时能耗大幅度降低,典型的两个应用,一个是手机续航更长,二是算起来更快、不发烫,所以算法不是越便宜越好,而是越好用越好。有时商业上的很多产品没有学术界产品做得那么精致、那么好,但是就是因为它简单好用。

戴雨森:从我们做投资的角度,觉得有一个基础应用之后就可以做应用和中间层了,这是我们的一个直观感受,这是一个很学术的定义。

比如一个 AI 公司得从头训练自己的模型,然后在里面做垂直整合。今天 ChatGPT 和 OpenAI 很好的做到了 API 化,大家可以很好很快的应用,但不需要自己训练模型,只要调动它的能力就可以。这样带来技术积木化、乐高化的过程,有了这个底座之后可以在上面搭应用,这样对应用场景特别有帮助。

之前大家在学术阶段,现在真正进入到应用、商业阶段,这是我对“基础”的理解,是从学术角度的认知。

宗成庆:这里的“基础模型”是基于网上公开的通用的常识性公开数据训练出来的,类似于一个全科医生,什么都可以干,有头疼感冒了找医生开个药都可以。但是真正用的时候,还得是专科医生去解决问题,尤其是对于一些需要很深专业知识的领域。

周明:我对基础模型有不同的看法,虽然是李飞飞两年前提出来,那时候 ChatGPT 还没有,GPT3 刚出来,所以大家都觉得全世界 N 个基础模型,理想是我们一些牛的大公司把它建好了之后,就跟中国电力一样,这些村就别建自己的水电厂了,大家在我的基础上垒新的应用,想法其实挺好的。

其实到目前为止,即使是 ChatGPT,也不敢称之为是“基础模型”,我给大家讲如下几个观点:

首先,基础模型应该是什么?我觉得至少要满足以下几点:

  • 功能比较强大;

  • 稳定的:比如像电力,不能老停电,否则谁也不敢用;

  • 安全的:任何一个人用,不至于伤害其他人;

  • 合乎伦理道德的:现在 ChatGPT 有很多地方不符合伦理道德。甚至可能符合美国的伦理道德,不符合中国的伦理道德;

  • 还有速度、并发、及时更新等很多地方;

  • 对垂直领域的综合支持;

  • 对用户无代码编程各方面的支持。

我个人认为,现在没有一个模型达到基础模型的状态,所以大家不要迷信 ChatGPT,离李飞飞提出的伟大的理想差得远了。

第二,基础模型确实重要。任何一个国家,像中国这么大的国家,有独特的五千年文化,一定要建立自己的基础模型体系,来实现安全性、并发性等一大堆东西。当下这件事还没有人给你一个定论怎么做,只能靠自己去探索出一套适合于自己国情和市场的基础模型,这是万里长征的第一步。也许从今天再搞 10 年、20 年,才能大概形成一个大家都可以放心、稳定应用的一组基础模型,而不是一个。

马少平:我很同意周老师的观点,我们国家至少得有自己的基础模型。从长远来说,它可能确实某种程度上发展成为一个基础设施,这个基础设施就像电力一样,电力不能靠国外,像以前没有石油的时候得找自己的大庆油田。

从追赶到超越,首先得学会平视 OpenAI


主持人(曹峰):最后一个问题,这次 ChatGPT 的诞生,也能看到我们国家跟国外的差距,想请各位专家聊聊我们国家的 ChatGPT 或者大模型目前发展到了什么地步?目前有什么困难?在座有做技术的,有做产业的,也可能是学生,各位分享一下对大家未来的发展建议。

周明:现在是对科技界年轻人、NLP 界一个非常好的阶段,我们这些人都是从事自然语言 30 年以上了,过去简直筚路蓝缕,什么都没有,代码要一行一行写,满眼都是泪,没有一个人支持。

但是今天有大数据、算力的支持,ChatGPT 验证了可行性。而我们强调自主知识产权,所以美国做得再好,也跟我们没关系,我们仍然有广阔的天地去开阔。

所以分享一句寄语给在座的各位,包括投资界、工业界、研究界的朋友们,未来的路还很长!选对了路,勇敢地走下去,就是你的计划!

宗成庆:有人问得更直观,为什么中国没有做出 ChatGPT 来?我说,任何一个高新技术都可以拿过来这样问,譬如,为什么中国没有做出自己的高端芯片?为什么中国没有操作系统?为什么中国没有自己的数据库?我们承认和美国的差距是有的,但我个人认为,自然语言处理这个方向比起其他领域,跟美国的差距要小得多,而且自然语言处理领域在近几年的进步非常大。

当然,原创性的技术是人家的,我们承认这个。从市场应用角度来讲,自然语言处理在中国市场并不落后,包括与美国相比。我们已经有了长足的进步,所以非常有信心做好中国自己的事情。

关键是我们怎么做好?现在的大家太浮躁了,ChatGPT 出来以后,全中国从上到下都在炒这个事情,为什么没有人去炒区块链、元宇宙了?马上一下子都转到 ChatGPT 类研究了。我们应该冷静去思考当下能做什么、什么可以做得更好,不要天天炒那些概念。面向国家需求扎扎实实地做好我们该做的事情才是硬道理。

戴雨森:我想分享几个看法:

第一,投资是个贝叶斯的过程,对世界的认知肯定随着我们对信息的获取而发生变化。在 iPhone 出来之前,投移动互联网和做移动开发的都没戏,当 iPhone 出来后,大家就都投,所以短时间内有浮躁、泡沫、很大的声量是正常的,因为我们对世界的认知、对未来的预估发生很大变化,这很正常,但是我们希望泡沫下面是有啤酒的。我们看到这次技术变革带来了很直接的应用价值,在美国看到了不仅是亚马逊本身,很多已经获得明显的商业化结果,所以我相信这波趋势会很持久,也会很漫长。

第二,要学习赶超 OpenAI,首先要平视 OpenAI。这几个月听到的观点分为两派,一是神化 OpenAI,觉得 OpenAI 很遥远,我们在语料、芯片、算法上都有短板,我们可能做不出来。另一个是速胜论,我们不仅有,而且还有很多这方面的研究,这个月就可以实现甚至是超越 ChatGPT 。

我们从追赶到超越的过程中,我们一开始需要给国产大模型一些时间,首先,我们自己的自然语言模型差距并不大,其次,它不是完全需要非常完美的技术,80 分的模型、90 分的模型、100 分的模型皆有用处,现在我们看到语言模型过一个了阈值,让它能够在很多地方产生作用。我们最近也用了 4、5 个团队的 ChatGPT 产品,虽然有差距,但比之前的尝试要好一些,部分应用已经做起来了。像涌现的能力、思维链等等逐渐开始具备,甚至有的在中文任务上比 ChatGPT 做得好,跟语料和算法有关。

我们现在面临的是一个代沟,而不是跨越不了的鸿沟。我们对未来充满了期待,但肯定这不是一个很快就能见效的事情。我们做天使投资的周期就是 10 年以上长周期投资的,而不是炒股票。

杨浩:说三点关于我自己对 ChatGPT 的想法:

第一点,从垂直领域比较来看,例如机器翻译,发现 ChatGPT 是不如目前专门训练的机器翻译模型;

第二点,我们一直在做质量评估这个事,但是坦诚地说,相对于专业的译员,还有很大的发挥空间,所以我们还有很多机会去做,同样 ChatGPT 也没有解决,所以无需神话它;

第三点是科技向善,ChatGPT 会带动整体上下游以及芯片的思考,我们公司有个“M+D”的生态,Mindspore 深度学习平台。现在大家用 Tensorflow 不多了,Pytorch 比较多,但在真正工业落地上有很多问题。D 是指 D 芯片相关内容,我们有些芯片的价格是对方的四分之一,但是整体性能是它的二分之一,这时候把这批芯片做上去的时候是能有收益的。另外再补充下大模型,华为盘古大模型一开始是基于 D 芯片训练,不完全是基于 GPU ,所以这里面空间很大。

路会越走越宽,相信那些割裂社会、把技术卡断的只是少数人,大家在通过产学研甚至和国内外专家亲密合作的情况下,这条路是越走越宽的。