李彦宏的独特抉择：当Sora引领风潮时，他的决策背后的故事

发表时间: 2024-11-15 09:40

AI让一切变得可能。

手工劳动/挖哥

手工编辑 /角叔

出品/独角兽观察

一位时尚女性走在充满温暖霓虹灯和动画城市标牌的东京街道上。她穿着黑色皮夹克、红色长裙和黑色靴子，拎着黑色手提包，戴着墨镜，涂着红色口红。她自信而随意地走着。街道潮湿且反光，在彩色灯光的照射下形成镜面效果。许多行人在街上行走。

今年2月，OpenAI的Sora闪亮登场，这段60秒一镜到底的文生视频迅速火爆出圈，业界惊呼AI视频的GPT时刻到了。

国内吃瓜群众在感叹Sora丝滑同时，也开始灵魂拷问：中国何时能有自己的Sora？压力来到了百度这样中国人工智能扛旗者身上。

跟还是不跟？

11月12日，在百度世界2024大会上，百度创始人李彦宏给出了答案：“当年初整个中文互联网都为Sora捶胸顿足时，我们决定去解决图像生成的幻觉问题。这个问题看起来更简单，甚至更枯燥，但是不解决就不会有应用。”

这个取舍多少有些出乎常人意料，毕竟跟Sora相比，这个一点都不“性感”。

放弃大热的Sora，选择枯燥的iRAG，李彦宏做对了吗？

取舍

年初，在Sora特别热的时候，《独角兽观察》了解到当时百度内部也有过讨论，最后的结论是：千万不能去做Sora，因为周期太长了，可能要投入10年、20年。无论多火，都不能做。

年底，这个抉择让李彦宏站在上海世博中心的演讲台上，底气十足地宣布：“过去24个月，这个行业最大的变化是大模型基本消除了幻觉，回答问题的准确性大幅提升。”

李彦宏的底气来源于百度的一项颠覆性技术iRAG（image based RAG），检索增强的文生图技术。

众所周知，大模型是一个概率模型，生成的内容具有一定不确定性，经常会出现一些胡说八道，让人哭笑不得的结果。业界把这些由AI产生的不真实、虚构的内容称为AI幻觉现象。

李彦宏在现场展示了一张由开源模型生成的北京天坛图片，看上去很像，但总觉得哪儿又不对。直到对比天坛照片，才发现真正的天坛其实是三层，而模型生成的是四层。

这种李鬼替代李逵的情况，自娱自乐还行，要想变得可用、可信赖、有“人味”，就需要解决幻觉这个问题。

与Sora相比，幻觉问题可能不那么出彩，但他却是制约大模型广泛应用的最大限制之一，幻觉问题不仅影响了AI的实用性，也限制了大模型在很多领域的应用。尤其像医疗、法律这样需要高度准确性的应用场景，一个小误差就可能导致严重的后果。

AI应用要迎来百花齐放，幻觉问题就是那堵遮挡了阳光，影响花儿成长的厚墙。

所以，从轻重缓急来说，iRAG比Sora的优先级更高。

如果把格局拉大到整个人工智能行业，解决幻觉问题比做出Sora重要，它能帮助更多的应用落地，让更多人用上AI技术，从而惠及更多行业。

百度检索增强的文生图技术iRAG ，通过把自身亿级图片数据和基础模型能力结合，利用检索到的信息来指导文本或答案，大大提高了内容的质量和准确性，解决了以往文生图模型生成图片“机器味”重、一眼假的问题。

耳听为虚，眼见为实。《独角兽观察》在文小言上实测了一轮，生成了下面这组图片。

▲把盖茨安排到长城跟关羽搓麻将，就问他怕不怕？

▲手持狙击枪的林黛玉，你们从来没见过吧？

▲老年苏菲玛索拥抱年轻的自己。

▲“搬家”到沙漠的自由女神像和埃菲尔铁塔。

▲一个人冒雪上朝的张居正。

▲飞越壶口瀑布的法拉利。

虽然这组奇思妙想的图片，大多不可能在现实中出现，但由iRAG生成的图片，元素都非常真实，准确性也非常高，如果不是因为内容太过“违和”，已经看不出“AI味儿”。

通过iRAG去伪存真后，AI生成图片的可用性大大提高，应用空间也就随之打开了。像影视作品、漫画作品，连续画本，海报制作等，通过iRAG生图可以大幅降低创作成本。

比如，一些大品牌的宣传，拍一组高质量的海报，需要找策划、模特、摄像等大量人力，消耗大量财力，动辄一个项目都需要少则一二十万，大则几十万，但现在成本接近于0。

李彦宏将iRAG的商业价值总结为：无幻觉、超真实、没成本，立等可取。

有用

李彦宏今年的演讲主题是《应用来了》。

与李彦宏过去1年多对大模型的思考一脉相承，其核心就两个字：有用。

“没有构建于基础模型之上的，丰富的AI原生应用生态，大模型就一文不值。”去年百度世界大会，李彦宏呼吁创业者去做更容易产生价值的应用。

今年，李彦宏把有用“升级”到超级有用：“百度不是要推出一个“超级应用”，而是要不断地帮助更多人、更多企业打造出数以百万‘超级有用’的应用。”

正是基于有用的原则，李彦宏舍弃了看上去很华丽的sora，选择做iRAG去解决幻觉问题，搬走了大模型走向“有用”的最大路障。

“基础模型能力就绪，我们将迎来AI应用的群星闪耀时刻。每一个应用都是一颗星，每一个应用都将成为改变世界的力量。”李彦宏认为未来有两大AI应用方向：一个是智能体，另一个是产业应用。

大会现场，百度发布了基于大模型的100大产业应用，涵盖了制造、能源、交通、政务、金融、汽车、教育、互联网等众多行业。

这宣示着大模型不再是空中楼阁，已开始切切实实在重塑千行百业。

如果说iRAG 让大模型更有用，秒哒则让大模型的使用门槛更低。

李彦宏演示了通过秒哒如何搭建一个活动报名系统。

在整个“开发”过程中，李彦宏只是向秒哒描述了需求，小组长、策划、小编、程序员和质检员5个智能体互相协作，协同完成策划、内容和开发等各种工作，他们甚至还能自动识别bug。

无代码编程、多智能体协作、多工具调用，秒哒不用写代码，就能实现任意想法，让每个人具备程序员的能力。

“我们将迎来一个前所未有的只靠想法就能赚钱的时代。”百度CEO李彦宏说。

这个将于明年一季度上线的工具，对大模型的重要性或许不亚于windows系统对PC普及的意义。

上世纪末，电脑操作系统还是基于文本命令行界面的dos系统，对没有计算机基础的用户非常不友好，windows的图形界面，大大降低电脑使用门槛，让电脑真正开始进入寻常百姓家。

预见

从2022年chatgpt横空出世至今，大模型已经火了将近两年。

这轮全球性的大模型狂热，究竟是一场新的技术革命，还是新一轮泡沫？

李彦宏和他的百度文心大模型给出了答案：截至 11 月初，百度文心大模型的日均调用量超 15 亿，最近半年增长率更是达到7.5倍。

30多年前，还在北大读书的李彦宏主动选修了人工智能课程，自此就给AI结下了不解之缘，成为AI的长期信仰者。

去年，在chatgpt后，李彦宏率先发布了国内第一个大模型。

如今，大模型已成了互联网大厂的“一号工程”。但鲜有像李彦宏这样的“一号位”还活跃在前台，不遗余力大力推介AI。

2023年9月，《时代》周刊发布了首届全球百大AI人物，李彦宏被评为全球AI领袖，和他一起被评选上的还有马斯克、黄仁勋等。

《时代》评语：“李彦宏是中国最杰出的未来主义者，长期投身于AI发展的浪潮。”

预见未来，让李彦宏在狂热的市场里，总能保持一份“人间清醒”。

去年，当各路人马蜂拥而入，鏖战大模型时，李彦宏说“不要卷模型，要卷应用”。事后证明确实不需要这么多大模型，如今美国还在坚持做基础大模型也就剩下几个巨头。

当应用开始被重视，很多人开始追求C端AI超级爆款，李彦宏说：“大模型对ToB 业务改造，比互联网对 ToB 的影响力要大一个数量级。”如今，C端的AI“超级APP”依然难寻，ToB 应用百花齐放。

当Sora年初炸场时，李彦宏选择去解决图像生成的幻觉问题，收获了颠覆性技术iRAG。

在最近的一次专访中，李彦宏详解了他放弃做Sora的原因，他认为Sora本质上是在任意场景下的视频生成能力，这个事情本身是非常有意义的，但同时又非常难，需要很长很长时间才能够做出来。

一语成谶。

接近年底，Sora依然难产，一些试用Sora的电影制作人体验后觉得并不太理想，有电影人反馈必须让模型生成数百个短片，才能找到一个可用的短片。

Sora刚出来时，担心工作被AI取代，好莱坞影视从业者还爆发了抗议潮。现在，好莱坞已经很久没有抗议声了。

跟着别人跑多为跟风者，耐得住寂寞，坚持自己方向的人才可能成为追风者。

在李彦宏眼中，人工智能很像是一次新的工业革命，这意味着它不是三五年就结束，不是一两年就出现“超级应用”的过程，它更像是未来三十、五十年对整个社会一个非常彻底的重构。

在人工智能的这场马拉松式竞赛中，不逞一时之“快”，保持足够耐心和战略定力，才不会掉队、跑偏。（完）

李彦宏的独特抉择：当Sora引领风潮时，他的决策背后的故事

热门阅读

推荐阅读