半年前说,讯飞能拍板年底 GPT 3.5 的大模型,「会有人当笑话来听。」
作者 | 宛辰、郑玥
编辑 | 郑玄
这波大模型浪潮里,科大讯飞是一个非常有意思的玩家,主要有两个原因:
第一当然是因为模型的表现出乎预料。最初很多人并不看好讯飞在内的「老」一批 AI 企业,但在讯飞星火大模型 1.0 和 2.0 发布后(5 月 8 日和 6 月 9 日),业内风评有了明显的改观。
引用企服投资人郑立涛的观点,在当时(6 月中旬)国内已经发布的大大小小几十个大模型里,讯飞星火 2.0 是能力最强的一个,虽然与 ChatGPT 还有差距,但进化速度非常惊人。
第二则是讯飞对大模型发展路线的判断。这几次发布会有一个细节很值得玩味,在 5 月 8 日的发布会上,科大讯飞董事长刘庆峰预言了年内大模型和产品升级的关键里程碑。6 月 8 日和 10 月 24 日,讯飞如约而至分别发布了 2.0 和 3.0,能力也基本符合此前的预估。
这些因素,让我们对 10 月 24 日发布的讯飞星火 3.0 和其背后的科大讯飞有了诸多好奇。
带着这些问题,10 月 24 日上午的发布会结束后,极客公园与多家媒体一起群访了科大讯飞董事长刘庆峰和科大讯飞研究院院长刘聪。近两个小时的对话里,科大讯飞大模型业务的掌舵者,回应了关于产品、产业的一系列问题。
对于讯飞发展大模型的优势,他们给了一个很有意思的答案。过去十年,科大讯飞的技术积累的核心在于语音、语义的处理,早在 2011 年科大讯飞便承建了语音及语言信息处理国家工程实验室,「我们提出让机器像人一样能听会说,这一次认知大模型本质上是一次对话式的通用智慧的涌现,语音和语言的核心能力是一个基础条件。」
以下是对话全文,由极客公园整理。
问:科大讯飞在第一次发布基础大模型的时候就定了明确的升级版本的时间点,咱们内部是怎么决定这些时间点的?
刘聪:定这个东西肯定不是拍脑袋,当时不了解讯飞的人可能在看笑话,但目前证明,基本上每个时间点都是实现,甚至是超预期实现的。
因为首先,我们对技术实现的每一个环节非常清楚。每次我们的升级中,都是「1+N」,在每次升级「1」时,我们都要相应地升级「N」。也有一些临时新增的情况,比如过程中发现代码的提升符合预期甚至超出预期,那就专门做一款代码应用 iFlyCode。
其次,我们内部 AI 核心技术和业务之间逻辑是对齐的。在过去的多年中,我们在 AI 领域经历了从技术驱动到价值、应用场景驱动的转变,以及的确实现了许多 AI 产品的落地。当然,在这个过程中我们也遇到了一些「坑」。
技术预判,讯飞虽然是去年 12 月 15 日才启动了「1+N」的攻关,但讯飞在自然语言处理领域已经有十多年的经验了:超脑计划、认知权重、语音和语言、国家工程实验室,这些都是我们的积累。
我们很早之前就跟客户对接了「N」的需求,只是当时没有大模型,我们只能做一些认知方面的内容,例如医疗方面、司法 206 系统等,所以那个时候,「N」的效果受到了限制。现在大模型来了,就意识到,将大模型应用于「N」,价值就会显现,这些需求一下子就突破了,比如作文批改和司法大模型的案例。
之所以能立这个 flag,是因为既有技术逻辑,也有我们讲的这个技术落地和产品和场景的逻辑。
再一个原因是,我们的核心团队掌握了这些技术,已经知道技术应该怎么跟产品对接,这是讯飞最宝贵的力量。是个系统性工程,需要算法、工程、平台、多模态……各个方向的协同,依托于讯飞研究院这样一个平台团队,没有内耗,大家一鼓作气往前走。
要补一句就是,虽然 flag 立在那,但是客观来说完成得并没有那么轻松。每次快开发布会时,都处于紧急上线的状态,实际上这个目标还是有挑战性的。然而,有这样一个团队存在,再加上我们之前对 AI 的积累和理解,我们对达到 GPT4 这个水平非常有信心。唯一令人担心的是我们需要花费多少时间来实现这个目标。
问:过去做 AI 的积累,对做大语言模型有多大帮助?
刘聪:首先,讯飞已经做了很长时间的语音、图文、图像等方面的研究和开发。在自然语言处理领域与语音识别、图像识别不同的是,NLP 不是一个定义清楚的问题,不是说我输一条语音,识别出结果,就可以判断准确率是多少。
比如在医疗领域中,输入一段病历,判断一种疾病,或者输入一个疾病,判断用药是否合适等。这些问题都需要单独进行定义。因此,如何将自然语言理解的任务与实际场景相结合是一个非常重要的问题。在这方面,讯飞已经非常熟练了,包括算法本身以及其他的系统,这套东西已经可以完全迁移了。
第二是,模型调参这件事情是相对通用的,这是深度学习之后,包括 Transformer 带来的统一的语音、图像、自然语言理解。讯飞是中国最早从事深度学习的企业之一,我们在 2012 年就上线了系统。综合来看,我认为对于深度学习这个领域,讯飞是国内理解最深刻,延续到今天也自然而然的。
问:3.0 发布面向教育、医疗这类领域的产品。不同产品背后的技术有没有本质区别?还是只是训练的数据样本不同?
刘聪:现在我们讲大模型的时候,不是单纯就一个模型,它有插件、有知识库,还有一些配套的能力。肯定不是大家想象的那么单纯,换一波数据训一下就结束了。它是一整个配置,还是比较复杂的。
问:您怎么看大模型下一步的进化方向,目前来看挑战会集中到哪里?
刘庆峰:我认为有两个进化方向。首先是大模型,这需要更大的模型参数来支持。我们需要战略支持,训练数万亿浮点参数,以应对基本盘。
第二个方向是构建每个人的 AI 助手,实现个性化的 AI 人设。其中一个重要的应用是主动问答,特别是启发式引导式的提问。这样可以将 AI 应用于更深入的行业场景,我认为这是核心主流。
我们还需要将大型模型与各个行业场景进行更深入地定制和服务,将大型模型的多模态能力和后台知识学习表达能力与各个场景深度融合。我们可以将大型模型作为核心,连接整合各种 AI 技术,为解决方案提供支持。
问:您提到真正的通用大模型是一个生态。讯飞星火大模型生态的最终形态是什么样子?刘聪:完整来讲,生态其实是「1+N+X」,「1」是核心的底座,「N」是讯飞自有赛道的自有产品,「X」是生态。它们之间的关联是,底座本身的提升会带来「N」的提升,也带来「X」的提升。
大模型生态有两个特点,第一发展得更快,第二各种层次的不同应用,最终组成一个很大的(生态)。站在终局来讲,类似 PC 时代的 Wintel。未来以大模型为底座衍生出一堆的行业模型、新生应用,甚至很多原来的应用要进行升级,那么这是一个生态的竞争。我相信当你的大模型体量达到一定程度,至少是可以持续进步的。这个未来会肯定不会有那么多家,它其实也是一个生态的极限。
问:讯飞大模型面向公众开放已经有一段时间了,可不可以透露一下用户的数量大概多少,后期考不考虑收费以及收费标准大概是什么样的?
刘庆峰:首先我们在今天上午提到了一个事实,从 9 月 5 日开始到现在,讯飞星火的各类用户已经达到了 1200 万,这个增长还是相当不错的。今天上午我们列出了一份 PPT,其中有很多深度用户在短短两三个月内使用了一两千次,解决了很多问题。
第二个数据是关于国内各家公司的比较,他们都在讨论谁的用户多谁的用户少,使用了什么数据来证明。对于我们来说,我们主要关注的是与大模型直接相关的应用。我们的开发者团队数量大约有 17 万多人,根据我们所了解到的各家数据,我们的开发团队是最多的,并且明显超过第二名。
其中,超过 10 万人是企业级的开发者团队,还有 7 万多人是个人开发团队。其中,大约 1.8 万人是专门从事小助手的团队,剩下的人则是使用 API 的小助手团队,他们不需要进行技术开发就能制作各种应用。所以从个人用户数来看,我们有 1200 万用户,开发者团队数则超过了 17 万人,这在业界可以说是最好的。至少从公开的数据来看是这样的。
具体的商业模式方面,星火目前还是免费的,虽然我们也看到了很多商业机会,但我们认为还是应该先深入挖掘这些场景。
另外,对于企业来说,根据它们的需求不同,它们对训练的价值也不同。包括我们的代码,我们更希望推动一种模式,就像合同能源管理一样。在使用之后,我们可以共同建立一个绩效管理平台,共同形成对代码量和代码质量的认知。然后,我们产生的新增效益可以给行业带来增量价值,大家可以在合作中进行分润,这样才能取得更远的发展。
问:发布会上您用了「遥遥领先,如期而至」这样的字眼,有一种破釜沉舟的感觉。所以现在讯飞内部投入了多少资源做这件事?商业化有没有时间表?
刘庆峰:我认为我们在制定时间表和里程碑时,并没有给自己留下退路,因为这是我们内心深处的梦想和追求。我们没有明确说要遥遥领先,但结果却显示我们确实遥遥领先。我们侧重于三个方面,而不是泛泛地谈论这个问题。
就代码能力来说,我们在 2018 年测得的代码能力是 61 分,现在已经提升到了 62 分。国内公开测试中,第二名的分数也没有超过 40 分,所以可以说我们确实遥遥领先。
在数学能力方面,我们在高考后进行了测试。我记得当时网易作为第三方进行了测试,但他们并没有与我们联系。他们测试完后发现,他们拿到了 5 道或 10 道数学题,而我们当时做对了 5 道,实际上是 6 道,其中有一道是有争议的。其他国内大型模型除了 1 家做了 4 道或 3 道题外,其他都是 0 分。所以可以说我们在数学能力方面确实遥遥领先。
除此之外,在医疗领域我们只有在结果出来后才会提到医疗。虽然大家可能觉得医疗领域的差距不大,但我们通过数据分析发现,我们的中文模型超越了 GDP 的 3.5 倍,而英文模型也相当出色。
虽然我们并没有说自己遥遥领先,但我们与其他公司在某些方面确实存在差距。例如,快速训练小规模数据和小样本,复杂推理,多模态综合使用以及处理长文本等等,这些都需要更大规模的模型。
问:内部做大模型的团队有多大体量,优势在哪里?
刘聪:原来我们的团队涉及很多方向,研究院有 1000 多人,其中包括算法、平台、工程和其他资源相关的人员,各自为战的同时协同性非常好。当初我们的团队只有大约 200 人,从认知拓展到多模态,再到一些行业应用,我们的范围正在不断扩大。
这个东西不是短期内就能形成的,它需要长达十几年的传承。我们需要仔细摸索出什么样的形式和技能,才能领先于其他人进行研究。语音识别技术每年我们都自我革新,虽然现在这个系统已经很好了,但我们必须不断更新,从 DNN 到 RNN,再到 STM,以及后面的 CNN。因为如果我们不进行自我革新,我们就会落后于其他人。
问:关于今天出的小的舆论热点,就是讯飞的AI学习机在内容审核上出现一些不当的内容,我们看到公司非常快速地反应,进行了下架的处理。然后我想问一下讯飞在接下来有没有一些更好的防范的机制?怎么样去做更好的一个审核。
刘庆峰:我们一直高度关注教育中的信息安全问题。这次的事件确实是个意外,但我们已经内部处理了。这个问题是在 16 号被一个家长发现的,他们是我们的合作伙伴,我们有明确的协议要求他们保障内容安全。我们刚刚将其试用,并在各个方面进行审核。这个问题只是范围中的一个,我们发现后立即下架,并对合作伙伴进行了处罚。我们内部也进行了相应的处分,并迅速将用于大模型上的内容审核机制应用到学习机上,以进行更严格的审核。
在过去的几年中,我们的学习机已经成为业界知名度最高的产品。我们曾多次受到美国的极限施压,但我们始终与国家同步发展,我们是中国自己研发的硬科技学习机。我们希望帮助每个孩子根据自身的特点进行更好的教育,促进心智发展和身心健康,实现全面发展。
这就是我们的主线。虽然在过程中出现了意外,但是我们的合作伙伴提供了太多的内容,审核过程还没有结束,相关人员匆忙让大家试用了,导致了问题的发生。但现在我们已经完全解决了这个问题。
问:接下来想问一下国际化,今天徐直军替讯飞打了一个广告,说华为在全世界用讯飞的服务解释几十种语言,接下来您对于国际化的考虑是什么?
刘庆峰:我们拥有领先的硬件品牌和技术,希望将其应用到国际市场上。在最近的日本大阪世博会需要在公立学校中教授英语写作和口语,全球招标中是科大讯飞作为唯一的供应商被选中。
在汽车行业中,各个汽车厂商都在进行智能助手和多语种技术方面的研发。我们是全球最优秀的公司之一,因此除了国内厂商之外,奔驰、宝马、法拉利等国际知名汽车品牌也开始与我们合作。我们相信通过强大的技术能力,可以推动行业的发展。
另外一个重要的方面是开放合作和共赢的态度。我们的重点是亚洲和与中国友好的欧洲国家和地区,逐步推进合作关系。
问:之前讯飞披露和华为昇腾的 910B可以对标英伟达,请问一下公司就是在芯片合作上,在推理芯片和训练芯片哪部分的就是合作多一点?
刘庆峰:当然是推理芯片相对简单,国内也有些号称自己的芯片自己做的东西能够做大模型,实际上主要是推理。最难的是训练,你如果不能我刚才说的 1000 张卡三个月,训练一个 1000 多亿的模型,就做不了。
华为除了他自己的一部分应用之外,最新的芯片都是率先给讯飞,下一步我们要做对标 GPT 的是训练,训练能做推理就是非常简单的事情。
问:现在使用国产算力平台,是不是意味着我们会花费可能比国外的竞争对手更加长的时间,另外讯飞目前是完全基于华为的算力平台,还是说有一些其他的算力在里面?
刘庆峰:使用国产专利平台,类似于早期的国产操作系统,通过不断打磨,从不好用到好用,最终实现了整个生态的繁荣。如果没有厂商提供坚定的底座,这个国家将无法自立自强。华为在底座能力上更加坚定,而我们则投入在应用和算法层面,这是我们共同看好的。
在新硬件上验证算法需要更多时间,但这个过程是值得的。我们的产品有的是华为的,可以公开给其他厂商使用,有的我们共有知识产权,有的是讯飞自己的,作为战略伙伴,我们在华为平台上进行训练,这样是没有任何问题的。
问:与华为的合作,背后您觉得最难的一关是什么?
刘庆峰:我们在做这件事情时,最大的压力来自于自己的心态。如果我们用英伟达的平台,可能只需要一个月就能完成,但如果用华为,可能需要三个月才能完成。
市场上在打仗,如果我们现在不使用国产品牌,使用已经成型的英伟达平台,今天的星火效果可能会更好,但我们必须走这一步。能够走到这一步,我们感到非常自豪,不仅为华为感到自豪,也为我们的团队感到自豪。
在快速奔跑的过程中,别人用的是最豪华的武器,而我们在一边打仗,一边磨练武器,一边向前进步。在这个过程中,我们需要付出更多的投入,既要挣钱,又要大规模投入,既有软件,又有硬件。所以,我们必须真正相信通过人工智能,我们能够走出来,能够走到业界的顶端。否则,谁都不会在这个过程中做这么多的额外付出。
问:今年大家都在讲大模型,但现在整个行业面临的一个困境是大模型叫好不叫座,包括OpenAI自己也发现运营成本是非常高的。我想问在国内大模型已经开闸的情况下,您怎么看未来商业化的路径,尤其是在中国,大家的付费意愿可能甚至低于美国。
刘庆峰:你说的叫好不好不叫座的产品类似于 ChatGPT,像讯飞新闻这样的纯 APP 更多是为了让大家了解技术的原理,并应用在一些相对浅显但有意义的场景中。所以我们需要在不同领域深入应用这些技术,满足各行各业的刚性需求。
如果一个 AI 模型对每个人都是一样的,那么顶尖高手们可能会觉得它不再适用。但是,如果模型能够学习并与用户相互启发,提高效率,并且能够根据个人特点输出令人满意的内容,那么它将成为每个人离不开的助手。
互联网并不需要每个人都写出全新的、没有人类知识的内容,而是需要有个性化的 AI 人设。因此,下一步我们要持续关注两个关键点:主动问答和 AI 人设。
问:市场上之前对大模型的商业化有一个担忧,就是每个行业都有很强的定制化的需求,会让成本过高,然后赚的钱很少。这次我看到科大讯飞发布了iFlyCode代码平台,这个在 B 端方面的代码平台会是科大讯飞未来商业化的主力吗?
刘庆峰:这是一个非常重要的方向,但是它的定制成本过高,导致商业价值无法闭环。关键是确定您的产品是否真正解决了刚性需求,而不是可有可无的东西。
我们必须仔细分析场景,证明应用的效果并将其工具化,如将定制工具、企业知识库学习和行业知识学习场景定制化,使企业内部能够快速使用。
因此,我们需要大幅降低定制成本,同时在典型场景上做得更好,以使在需要定制的各个领域的比例越来越低。它肯定是一个通用能力,龙头企业、单个企业用好以后把场景再全面推广。这需要一个过程。
问:刚刚您提到了很多关于大模型商业化的一些思路,我还是想请您来判断一下大模型它的商业回报的周期大概是怎样的,大概我们可以在什么时候可以看到对业绩的一个提振作用?
刘庆峰:首先,我们内部的大模型项目已经开始取得了显著的成效。例如,我们的智能硬件销量总体增长了 70% 以上,学习机实现了 200% 的增长。这主要得益于大模型的引入,它为我们带来了更强大的功能需求,例如办公本现在不仅可以录音,还可以实现同步全程录音并转换为文字进行分享。此外,办公本结束后还可以辅助写稿,在这些方面的能力不断提升。我认为在医疗和教育领域,大模型项目为讯飞内部提供了强大的赋能。
至于商业收益方面,我认为明年将会显现出明显的效果。然而,我们还有很多工作要做,不能说已经达到了一个稳定状态,只需要通过完善细节和逐步训练。我们必须紧迫地推进一系列想法的落实,这些想法在算法上已经得到验证,只是需要时间去实施。
因此,明年我们仍然会加大投入。新增的收入毛利将会明显增加,但我们会将全部新增的毛利投入到新的一年中。我认为,在当前阶段,明年至少不需要投入产出,而是应该加快收入毛利的增长,提高行业市场份额和影响力。
同时,我们要坚定地将多余的资金投入到我们认为必须做的事情上,以加快速度。这是我们当前的战略选择。对于综合商业方面,我认可 Gartner 和高盛的分析。因此,我相信在科大讯飞,明年至 2025 年将会是一个良性的状态,收入毛利快速增长后能够覆盖新增投入的状态。
10.24 活动现场,科大讯飞称星火大模型 3.0 全面对标 GPT 3.5
问:您认为百模大战现在发展到了一个什么阶段?几家头部企业的打法有没有出现差异化?现在的竞争焦点是什么?
刘聪:当然,这个问题本身肯定是动态的。我认为在这个过程中,可以分为三个阶段。第一个阶段是在 2 月份,当时大家还在摸索,国家和企业都对这件事感到有些迷茫,因为差距还很大。第二个阶段可能在 5、6 月份左右,我们对技术线路的验证路线非常清晰,因此我们能够立 flag。
现在可能是第三个有代表性的阶段。最近陆续有一些发布,现在处于大浪淘沙的阶段,最终会剩下一些头部公司。我认为到年底会产生分化,分化的边界大概是 3.5,这是一个关键的节点。
每家公司对于人工智能的定义可能不尽相同。就我们自己而言,我们以功能全面为基准来定义人工智能。例如,像百度将其定义为理解、生成记忆以及逻辑推理等。不同公司对于人工智能的定义各有差异。个人而言,我无法详细说明其他公司的想法,只能从我们的角度出发思考为什么我们最初定义了这七个维度。当然,这七个维度将来可能会有衍生,就像今天我们在这七个维度的基础上讨论个性化,个性化能为我们的这个底座模型注入灵魂。
类似于从被动接受提问到主动交互的转变,可以使得人工智能更像一个顾问。技能不仅仅是回答问题,同时也可以根据情况主动交互。
那么为什么说我们相对于其他公司的定义更详细?这是因为我们从一开始就要明确目标,是要追求通用人工智能,还是只做其中的一部分?对于讯飞来说,作为一家专注于人工智能的公司,通用人工智能是我们的梦想,我们最初的目标就是追求通用人工智能。我们还强调我们不仅仅是中文,未来还将拓展到其他语言,你连英文能力都不具备,包括未来拓展到其他多一种,那叫什么通用?
接下来,我认为对于中国的人工智能,尤其是我们的企业来说,应用落地和生态繁荣是非常关键的。但如果没有应用,特别是对于讯飞这样的公司来说,我们并不是互联网巨头,也没有那么多资金可以烧掉,我们必须通过应用落地来实现产品的价值。
产品价值是非常重要的一方面,但另一方面,我们也需要逐步实现商业闭环。所以我认为这是我们需要关注的第三个方面。此外,生态系统也非常重要,因为过去我们可能会发现,虽然某个语音识别系统的效果可能很好,但在大家都达到差不多水平之后,你在恶劣环境中的可替代性就会变得很高。说实话,这对于大型模型来说并不完全适用。
大型模型的发展一方面受到底座的限制,但更重要的是能否在底座的基础上实现个性化。使用某个特定底座开发的应用程序会更加得心应手,而更换底座可能会导致一些基础功能的丧失。例如,对于代码编写来说,10 个点的差异可能会对写作习惯和效率产生完全不同的影响。
因此,目前的发展趋势肯定是分化的,而且我相信从现在到明年上半年,这种分化会变得越来越明显。因为除了硬件设备之外,对于这些算法的理解也变得越来越关键。在如此庞大的模型和机器上,如果你的算法不够确切,稍有差错就可能导致三个月的时间浪费。
因此,第二个问题是关于通用底座和整体算力的问题,特别是国产算力。对于讯飞来说,这是一个门槛,而且我认为这也是一个未来的趋势。此外,我们还要密切关注应用闭环和生态闭环的快速产生价值的情况。这些是我们未来需要持续关注的几个方面。