商汤科技联合创始人、首席科学家、绝影智能汽车事业群总裁王晓刚
在刚刚结束的WAIC 2024上,商汤绝影公布了一段一镜到底的视频。
视频中,一辆只搭载7个摄像头的UniAD的车辆,在无图情况下,不仅自由地穿梭在城市的施工道路、大型路口、红绿灯路口,即使是在交通状况复杂的乡村道路,也能够顺利通过无标识线非对称路口,避让停在路边的静止车辆以及窄道车辆,还能在无车道线大曲率弯道右转。
这一系列丝滑的驾驶动作,让人印象深刻。其背后仰赖的正是商汤绝影在行业首个提出的感知决策一体的端到端自动驾驶方案UniAD。
在过去几年的时间里,智能驾驶一直都是车企追逐的焦点,但实际的驾驶水平往往差强人意。在ChatGPT横空出世之后,智能驾驶行业也一直在期待同样的质变时刻。
恰在此时,“端到端”指明了一个方向。今年以来,智能驾驶行业对于端到端的关注度一路升温。无论是小鹏、理想、蔚来、长城这样的车企还是华为、元戎启行、毫末智行这样的技术提供商,都不约而同地转向端到端路线。
早在2022年末,商汤绝影便提出了感知决策一体化自动驾驶通用模型UniAD,DriveAGI也是在UniAD的基础上迭代而成,通过多模态大模型加持端到端方案,打造下一代自动驾驶技术。即便在路上遇到救护车,凭借DriveAGI的认知能力,车辆也能够准确识别理解目标,并主动让路。
DriveAGI不仅能识别救护车,还能做到主动让行执勤救护车
经过两年的先手布局,现在,商汤绝影入局早、迭代快的优势正逐渐显现出来——已经与超过30家国内外车企合作,覆盖超90款车型,累计交付195万辆智能汽车。在合作过程中,商汤绝影与车企找到各自的边界,发挥各自的优势,正一道加速自动驾驶“GPT时刻”的到来。
站在众多玩家扎堆进军端到端的时刻,商汤科技联合创始人、首席科学家、绝影智能汽车事业群总裁王晓刚向钛媒体App回顾了当初为何会抢先看准了端到端?
2017年,商汤与日本本田汽车宣布合作,共同研发L4自动驾驶技术。商汤本身是以AI视觉技术起家,当时本田汽车要求商汤只用摄像头,没有高精地图的情况下实现智能驾驶功能,这可以被看作是端到端的雏形。自那之后,团队开始持续研究端到端。
现在,端到端的竞争虽然如火如荼,但一个普遍存在的问题是:端到端技术路线还未形成最佳实践,技术路线存在分歧。
王晓刚对钛媒体App介绍说,目前大部分的端到端方案,采用的都是更易落地的“两段式”方案,即由感知和决策两个模型组成。“第一段感知的部分本身就已经在应用神经网络了,因此变化不大。最大的变化在第二段的规划控制部分,原来这部分是靠写规则实现,现在则是同样应用神经网络去做。”
不过,在他看来,“两段式”的方案就是把两个小模型接在一起,端到端联合优化一下。在“两段式”方案里,信息经过感知模型过滤后,损失较多,只剩下一些人、车、物之类的标签,因此第二段模型事实上只是一个小模型。“两段式方案和一段式方案最核心的差异就在于,是小模型时代还是大模型时代。”
王晓刚直言,“两段式”方案就算再做10年,也成不了自动驾驶的“ChatGPT”。
正是考虑到这些问题,从研发一开始商汤绝影采用的就是将感知、决策、规划等模块都整合到一个全栈Transformer端到端模型中,实现感知决策一体化的“一段式”方案。也就是由传感器输入,直接输出行为的轨迹。
在这个过程中,机器会像人脑一样综合信息并思考判断,就像你在读一篇推理小说,小说中有各种不同的人物和情节,有密室、有谜团,你在读推理小说的过程中完全不清楚接下来会发生什么。通过小说不同的人物和情节,你预测凶手有几种可能性,机器大脑所做的内容就像一本推理小说一样。
不过,一段式方案和两段式方案虽然仅有一字之差,但是难度却相差悬殊。王晓刚解释说,采用一段式路线,前端的视频信息量是非常巨大的,但输出的信号又需要非常精准,这对整个网络的训练、数据和Pipeline的要求更高。
“‘一段式’方案很难,但一旦模型学出来能力会很强,这才是我们追求的自动驾驶里面的‘ChatGPT’时刻。”王晓刚说到。
技术路线的选择是第一步。2022年底,商汤及其联合实验室提出了行业首个感知决策一体化自动驾驶通用模型UniAD,并在次年荣获2023年国际计算机视觉与模式识别会议(CVPR)最佳论文。
今年北京车展,商汤绝影展示了UniAD的实车上路成果,能在城区道路和乡村小路上自如行驶。紧接着,在WAIC 2024上,商汤绝影又展示了UniAD城区复杂道路、乡村小路等一镜到底的实车演示。
UniAD是一个纯视觉端到端自动驾驶通用模型,虽然提升了智驾系统的驾驶能力,但纯粹的端到端自动驾驶模型不是自动驾驶的最终答案。王晓刚表示,智能汽车走向超级智能体的重要标志就是进一步具备对开放世界的感知、推理、决策及交互能力。因此,商汤绝影又基于多模态大模型打造智驾大模型DriveAGI。
DriveAGI的进化方向就是让端到端智驾“可解释、可交互”。
所谓的可解释,就是不仅让车辆能够更像人一样理解复杂的现实世界,洞察各类交通参与者的行为动机,快速学习各种交通规则,掌握瞬息万变的道路信息,还能向用户解释驾驶决策的推理过程。
比如,一辆正常行驶在两车道右侧的车辆,在搭载了DriveAGI之后,当它发现后方有救护车接近时,可以第一时间识别到,并且能够判断出该救护车是在执勤状态,需要让路。因此,在第一时间判断出左侧道路还有变道空间,及时由右侧道路变道左侧,保证救护车顺利快速通行。整个过程就类似人脑一样,对于路上遇到的不同情况不仅能看清楚,还能基于交通规则等进行思考和判断,做出正确的驾驶动作。
可交互性则是指用户不仅可以通过问询让DriveAGI解释自己的决策过程,还能通过语音或手势指令来控制自动驾驶行为。例如,未来在自动驾驶状态下,导航指示车辆需在下个路口调头以抵达目的地,但驾驶员知晓可在前方有近路可以直接转弯,那么他只需对系统说出“直接左拐”,系统便会根据当前路况来执行这一指令。
从黑盒运行、单向输出到可解释、可交互,关键的窍门在于——如何去训练模型。
模型训练的第一要素就是数据量大、模型参数大。马斯克之前曾谈到过数据对自动驾驶模型的重要性:训练了100万个视频Case,勉强够用;200万个,稍好一些;300万个,就会感到Wow;到1000万个,就变得难以置信了。
王晓刚也表示,现在网络结构并非核心秘密,大家的网络结构都较为相似。关键在于,在相似的网络结构下,如何实现卓越的性能质量。这主要取决于模型规模是否足够大以及数据生产管线是否强大。
深耕AI领域十年,商汤落地了众多行业,城市智能、商业、医疗、金融、自动驾驶,甚至在钢铁、煤矿、电力等工业场景,在各个行业积累了大量的多模态数据。7月5日,商汤绝影在WAIC 2024上现场演示的搭载在200 TOPS+平台上的8B模型车端部署方案就有80亿参数。
商汤绝影车载端侧8B多模态模型性能
量有了,质也得保证。王晓刚就表示,不能一味只关注数据量和模型的参数量,如果没有一个难的任务,即使再增加数据量和参数,模型的能力也只是在原地打转。
紧接着,他还举例说,蜜蜂能够在那么复杂的蜂窝里工作,做得那么精准,那么好,但它们永远都只有单一的技能,只能干这一件事。而人的大脑就不一样了,人类经过几千年的进化,能够把卫星火箭都送上天去。“这就是通用的能力与专属的能力的区别。蜜蜂它一辈子、两辈子、三辈子都只做一件事,就像模型一样,如果你一直只给它喂人、车、物的数据,喂一辈子它还只能干这个事儿。”
除了数据之外,强大的算力供应,是如今最稀缺,也最有竞争力的要素。
商汤绝影是业内少有的算力供应大户。从2018年开始,商汤开始布局算力基础设施,在上海临港建设智算中心AIDC,拥有45000张GPU对外提供大模型训练与推理服务,能够训练几千亿甚至万亿参数的模型。依托AIDC加持的商汤绝影的运营算力规模达到12000 P,预计到2024年第四季度,峰值算力将达到25000 P。
技术再好,关键还是要看落地。
王晓刚介绍说,商汤绝影的量产智驾产品已落地广汽埃安LX Plus、合众哪吒S、广汽昊铂GT、红旗等多个品牌及车型,高速NOA等功能也开始落地,同时绝影还在推进更多车型交付。6月初,广汽和一汽入选国内首批L3试点项目,商汤绝影为他们提供面向L3的感知算法。不止如此,商汤绝影目前的多个量产智驾方案在未来均可升级为端到端架构。
手握不少客户和订单,但以商汤绝影为代表的技术方案提供商们不得不面对的一个问题——车企自研。
以特斯拉为例,它的特点就在于它既做AI,拥有大量基础设施,比如成千上万的GPU,同时还有每年数百万台的车,掌握着终端用户的信息和数据,形成了自己的闭环。
其他家车企是否会效仿?以及能不能效仿?王晓刚表示,即便如微软这样实力强大、人力资源丰富的公司,也选择砍掉了自己的AI团队,转而与OpenAI合作。
同时,他解释说,所谓的“自研”并不是说要从头到尾都由自己来完成所有事情,关键在于可控。“只要让车企客户了解并主导掌控其中发生的所有事情,能够利用自己的平台对产品进行迭代,这就足够了。”
因此,在合作方式上,以往商汤绝影倾向于将代码作为黑盒交付,认为这是最宝贵的资产。但王晓刚透露,现在商汤绝影并不排斥白盒交付。因为即便提供了代码,通过更深入的迭代与合作,也能够迅速提升竞争力。
此外,合作还能够帮助车企节省资金。“我们在大模型上的投入已超过100亿,并在此过程中建立了自己的基础设施、大型装置和盈利的云服务,实现了收支平衡。通过与我们合作,车企将无需承担这部分巨额投入。车厂无需亲自涉足这些领域,我们会向车厂开放相关资源。”
不过,他也坦言,与车企合作面临的一个问题是数据反馈的不足。通常终端数据的反馈依赖于车厂的主动提供,这可能导致数据迭代和循环效率不高。因此,与车企客户的深入合作显得尤为重要。
商汤绝影通过白盒交付的方式,帮助车企伙伴理解大模型技术、掌握know-how,另一方面,作为合作伙伴的主机厂能够和绝影共享不涉及隐私和机密的数据和信息,从而训练出更加强大的车载原生大模型,双方共同开发,加速产品迭代,打造真正以用户为中心的智能汽车原生的AI大模型产品。
在行业领先的丰沛算力、全球领先的「日日新」大模型能力的基础上,通过更加深入的战略合作模式,商汤绝影将与主机厂等众多合作伙伴共创共赢。
商汤绝影把端到端大模型上车时间定在2025年,王晓刚表示,ChatGPT出来的时候,也并不是所有的事情都做得完美,比如GPT 3.5在做任务时,也有很多事情干不好。但是关键在于大家都看到了一个正确的方向,沿着这条路走是没问题的,只是还需要再多迭代几个月的时间。端到端同样如此。
同时,他还自信地表示,明年商汤绝影的端到端开始量产的时候,用户会在一些场景中看到以前完全无法做到的事情,而那些就会是涌现出的新能力。
英伟达汽车事业部副总裁吴新宙曾公开表示,端到端正是智驾三部曲的最终曲。而在通往终局的路上,商汤绝影值得重点关注与期待。