大神李沐解读：24年人工智能的惊人现状！

发表时间: 2024-08-28 23:28

2024年8月23日，李沐回到母校上海交大，做了一场关于大模型和个人生涯的分享。

不久前，李沐才回顾了他创业这一年：抖音创始人张一鸣，快手创始人宿华给建议，英伟达的黄仁勋帮忙搞卡，逃离地狱模式后要做“人类陪伴的智能体”：

从最初有创业的想法想做大模型的生产力工具，到遇到张一鸣被对方“点醒”，决定直接做模型本身；

到融资过程里被“放鸽子”，因首次创业而有些“缩手缩脚”没能像一些同行那样“拿10亿现金”；

到直接联系黄仁勋获得对方直接“安排”的H100，但却发现这些卡在训练中bug一堆；

再到最终磕磕绊绊找到商业化盈亏平衡的方法，并继续朝着“人类陪伴的智能体”的目标前进。

AI互联网是我重点关注的投资方向“四大金刚”行业之一，是除医药之外未来市场最大的行业，因此我会长期分享解读大佬在AI领域的最新观点，长文记录在“一涵笔记”：

语言模型的现在，以及未来情况的预测

语言模型分为三块：算力、算法和数据

语言模型也好，整个机器学习模型也好，本质上把数据通过算力和算法压进中间那个模型里面，让其具备一定识别能力，面对新数据时，在原数据里面找到相似的东西，然后做一定的修改，输出你要的东西。【一涵注：李沐的比喻是：机器学习就是老中医，就是说现在的人工智能靠的是“经验”在运行，像中医治病有时候有效果，但让中医给你解释下原理？他很难跟你讲人体微观上的运行规律，因为科学也没搞清楚人体规律，科学只搞清楚了对付细菌和真菌和部分病毒的原理。

用任正非的话说，人工智能就是统计学，中医其实也是古代统计学，就是经过长期实践经验这样做有效就行。再举个抖音的例子，抖音会给你推荐你感兴趣的视频，那是因为统计发现跟你一样喜欢ABC视频的人也会喜欢D视频，至于你们为什么喜欢？抖音也不知道。李沐下文也会提到短视频的例子。

这样做人工智能的好处是很快就能用上改变人们生活，坏处是因为搞不清楚原理所以需要消耗大量的资源，比如算力和电力，下文也会提到。】

算力

算力上，长期看越来越便宜；

短期看，算力翻倍，价格可能会有 1.4 倍的提升。

但长期看，当竞争变得越来越激烈，摩尔定律会发挥作用，算力翻倍，价格不一定变。

租GPU和买GPU从三年时间看成本差不多。

自建的好处: 节省 CPU 算力，以及存储和网络带宽。

【一涵注：从上图可以看出自建机房并没有比用云计算省多少成本，用云计算还省心多了。所以阿里才在最近会议中披露，GPU服务器一上线就会被抢光，AI云这块业务看来还是会非常好做。此外，就像朱啸虎说的，阿里等大公司可以拿成本价出售大模型使用权（API）来跟创业公司竞争，创业公司根本不敢跟进价格战。】

算法

模型：从语言到多模态。

语言模型：100B 到 500B 参数会是主流。

无论是 OpenAI 还是别的模型，基本都是用 10T 到 50T token 做预训练。开源模型基本在 10T token 以上。这个数据量差不多，不会再往更大的尺寸发展。原因是，人类历史上的数据比这个多，但是看多样性、质量,10T 到 50T 这个规模就差不多。

【一涵注：如果大家都花心思去做数据质量而不是继续扩大数据量，那或许英伟达的短缺未来就不是问题了，投资GPU也要注意高处不胜寒。】

语言模型水平较高，大约在 80~85 分之间。

音频模型可接受，能用，大约在 70-80 分之间。

但视频生成方面，尤其是生成具有特定功能的视频尚显不足，整体水平大约在 50 分左右。

数据

数据直接关系到模型训练效果。

预训练是工程问题，后训练才是技术问题

两年前预训练还是技术问题，现在变成工程问题

后训练，高质量数据和改进的算法，能够极大地提升模型效果，而高质量数据一定是结构化的，并且与应用场景高度相关，以保证数据的多样性和实用性

【一涵注：如果创业公司专注于后训练，那么就需要使用阿里云等公司的预训练模型了。】

垂直模型也需要通用知识

没有真正的垂直模型，即便是很垂直领域的模型，它的通用能力也不能差

让GPT模型角色扮演，可能迭代好几代都不行，主要原因：它是一个通用维度，需要各个方面都有提升，如果刚好满足要求，需要指数级的数据，并且模型会变得很大。

【一涵注：可以看出，大厂由于有大量的应用场景的数据，相比创业公司做大模型有天然的优势。】

数据决定了模型的上限，算法决定了模型的下限。

目前，我们离 AGI 还很远， AGI 能够做自主的学习，目前的模型就是填鸭式状态。

Claude 3.5 做的还不错，一个相对来说不那么大的模型，能在各种榜单上优于 GPT-4 ，并且在使用上确实还不错。因为他们70-80%的时间在做数据质量。

应用

人机交互会有一点改变。

以前是UI点选操作（点喜欢和刷视频）: 最简单,能不说就不说。

ChatGPT之后, 大家开始愿意用长文本交互，或者用语音交互。

未来，语音控制系统将处理更加复杂和具体的任务，这种技术的自然和便捷性将显著提高。

这次技术革命还没有出现 killer APP（杀手级应用）。

什么是killer APP: 一个新技术出现后, 涌现出非常受欢迎的应用形态。

手机的 killer APP 是什么吗？短视频。【一涵注：就是我上文说的抖音使用的技术，其实也属于人工智能技术。】

LLM 时代的 killer APP 是什么？

上一波顶级 AI 公司基本上快死得差不多了，包括: Character.AI、Inflection、Adept 也都被卖了，还剩一个 Perplexity 搜索还在支撑着。

但是下一代 killer APP 是什么? 不知道, 要等技术更成熟，用户习惯变化才会涌现。

LLM（大模型）应用

AI 本质是辅助人类完成任务，给人类提供无限的人力资源。

LLM对现有岗位的影响多大？分三类：

文科白领: 用自然语言去跟人、跟世界打交道，如写文章。

人花1小时完成的事情, LLM 能实现80-90%。

LLM 做的好的领域: 个人助理、客服中心、文本处理、游戏和舆论以及教育。

【一涵注：客服方面LLM已经起到了非常显著的替代效果，从事相关工作一定要当心了。】

工科白领: AI 取代程序员, 还早得很。

过去，编程往往需要程序员自行查找代码示例, 修改、调试, 以适配项目需求。

现在，优秀的LLM把这些步骤自动化, 但这仅限于简单业务场景，还不是真正的写代码。

蓝领阶级: 最难, 唯一做的好的是自动驾驶。

自动驾驶为什么出色？路况是一个封闭的世界，相对稳定，比如有些地方路况十年都不会改变，封闭路况里面开车比较简单。

【一涵注：上海这种复杂路况实现自动驾驶很困难，因为有大量不遵守交通规则的行人和电动车，自行车。不过在封闭的校园和产业园内，阿里的菜鸟已经可以用无人车送快递了。】

无人驾驶还没有完全解决，但进步很大；路上的车多，每个车上都有传感器，从而采集大量的数据，基于大数据做技术开发，比如特斯拉，车上有大量摄像头，有很多车在路上跑，可以采集很多数据来优化算法，而且路况变化不大。

蓝领做的事情, 如端盘子、运货等；而AI 跟这个世界打交道，还很难，机器人理解房间里有什么东西很难（① 缺乏传感器/数据 ② 现实场景不会有很多机器人进入/采集很多数据），除非有技术突破，不然要大量数据作为辅助。

【一涵注：这是一个鸡生蛋的难题，没有机器人参与就没有数据，没有数据就做不了AI，没有AI机器人就没有人用......】

AI 理解蓝领的世界，包括和这个世界互动，可能需要至少 5 年时间。

小结：

文科白领工作，AI 已经能完成简单任务，复杂任务需要继续努力。

工科白领工作，简单任务还需要努力，复杂任务存在困难。

蓝领工作，除了无人驾驶和特定场景（比如工厂，场景变化不大，也能采集大量数据），AI 连简单任务都做不了，完成复杂任务更难。

更多AI互联网领域前沿投资相关内容，长文记录在“一涵笔记”。

大神李沐解读：24年人工智能的惊人现状！

热门阅读

推荐阅读