2024年8月23日,李沐回到母校上海交大,做了一场关于大模型和个人生涯的分享。
不久前,李沐才回顾了他创业这一年:抖音创始人张一鸣,快手创始人宿华给建议,英伟达的黄仁勋帮忙搞卡,逃离地狱模式后要做“人类陪伴的智能体”:
从最初有创业的想法想做大模型的生产力工具,到遇到张一鸣被对方“点醒”,决定直接做模型本身;
到融资过程里被“放鸽子”,因首次创业而有些“缩手缩脚”没能像一些同行那样“拿10亿现金”;
到直接联系黄仁勋获得对方直接“安排”的H100,但却发现这些卡在训练中bug一堆;
再到最终磕磕绊绊找到商业化盈亏平衡的方法,并继续朝着“人类陪伴的智能体”的目标前进。
AI互联网是我重点关注的投资方向“四大金刚”行业之一,是除医药之外未来市场最大的行业,因此我会长期分享解读大佬在AI领域的最新观点,长文记录在“一涵笔记”:
语言模型的现在,以及未来情况的预测
语言模型分为三块:算力、算法和数据
语言模型也好,整个机器学习模型也好,本质上把数据通过算力和算法压进中间那个模型里面,让其具备一定识别能力,面对新数据时,在原数据里面找到相似的东西,然后做一定的修改,输出你要的东西。【一涵注:李沐的比喻是:机器学习就是老中医,就是说现在的人工智能靠的是“经验”在运行,像中医治病有时候有效果,但让中医给你解释下原理?他很难跟你讲人体微观上的运行规律,因为科学也没搞清楚人体规律,科学只搞清楚了对付细菌和真菌和部分病毒的原理。
用任正非的话说,人工智能就是统计学,中医其实也是古代统计学,就是经过长期实践经验这样做有效就行。再举个抖音的例子,抖音会给你推荐你感兴趣的视频,那是因为统计发现跟你一样喜欢ABC视频的人也会喜欢D视频,至于你们为什么喜欢?抖音也不知道。李沐下文也会提到短视频的例子。
这样做人工智能的好处是很快就能用上改变人们生活,坏处是因为搞不清楚原理所以需要消耗大量的资源,比如算力和电力,下文也会提到。】
算力
算力上,长期看越来越便宜;
短期看,算力翻倍,价格可能会有 1.4 倍的提升。
但长期看,当竞争变得越来越激烈,摩尔定律会发挥作用,算力翻倍,价格不一定变。
租GPU和买GPU从三年时间看成本差不多。
自建的好处: 节省 CPU 算力,以及存储和网络带宽。
【一涵注:从上图可以看出自建机房并没有比用云计算省多少成本,用云计算还省心多了。所以阿里才在最近会议中披露,GPU服务器一上线就会被抢光,AI云这块业务看来还是会非常好做。此外,就像朱啸虎说的,阿里等大公司可以拿成本价出售大模型使用权(API)来跟创业公司竞争,创业公司根本不敢跟进价格战。】
算法
模型:从语言到多模态。
语言模型:100B 到 500B 参数会是主流。
无论是 OpenAI 还是别的模型,基本都是用 10T 到 50T token 做预训练。开源模型基本在 10T token 以上。这个数据量差不多,不会再往更大的尺寸发展。原因是,人类历史上的数据比这个多,但是看多样性、质量,10T 到 50T 这个规模就差不多。
【一涵注:如果大家都花心思去做数据质量而不是继续扩大数据量,那或许英伟达的短缺未来就不是问题了,投资GPU也要注意高处不胜寒。】
语言模型水平较高,大约在 80~85 分之间。
音频模型可接受,能用,大约在 70-80 分之间。
但视频生成方面,尤其是生成具有特定功能的视频尚显不足,整体水平大约在 50 分左右。
数据
数据直接关系到模型训练效果。
预训练是工程问题,后训练才是技术问题
两年前预训练还是技术问题,现在变成工程问题
后训练,高质量数据和改进的算法,能够极大地提升模型效果,而高质量数据一定是结构化的,并且与应用场景高度相关,以保证数据的多样性和实用性
【一涵注:如果创业公司专注于后训练,那么就需要使用阿里云等公司的预训练模型了。】
垂直模型也需要通用知识
没有真正的垂直模型,即便是很垂直领域的模型,它的通用能力也不能差
让GPT模型角色扮演,可能迭代好几代都不行,主要原因:它是一个通用维度,需要各个方面都有提升,如果刚好满足要求,需要指数级的数据,并且模型会变得很大。
【一涵注:可以看出,大厂由于有大量的应用场景的数据,相比创业公司做大模型有天然的优势。】
数据决定了模型的上限,算法决定了模型的下限。
目前,我们离 AGI 还很远, AGI 能够做自主的学习,目前的模型就是填鸭式状态。
Claude 3.5 做的还不错,一个相对来说不那么大的模型,能在各种榜单上优于 GPT-4 ,并且在使用上确实还不错。因为他们70-80%的时间在做数据质量。
应用
人机交互会有一点改变。
以前是UI点选操作(点喜欢和刷视频): 最简单,能不说就不说。
ChatGPT之后, 大家开始愿意用长文本交互,或者用语音交互。
未来,语音控制系统将处理更加复杂和具体的任务,这种技术的自然和便捷性将显著提高。
这次技术革命还没有出现 killer APP(杀手级应用)。
什么是killer APP: 一个新技术出现后, 涌现出非常受欢迎的应用形态。
手机的 killer APP 是什么吗?短视频。【一涵注:就是我上文说的抖音使用的技术,其实也属于人工智能技术。】
LLM 时代的 killer APP 是什么?
上一波顶级 AI 公司基本上快死得差不多了,包括: Character.AI、Inflection、Adept 也都被卖了,还剩一个 Perplexity 搜索还在支撑着。
但是下一代 killer APP 是什么? 不知道, 要等技术更成熟,用户习惯变化才会涌现。
LLM(大模型) 应用
AI 本质是辅助人类完成任务,给人类提供无限的人力资源。
LLM对现有岗位的影响多大?分三类:
文科白领: 用自然语言去跟人、跟世界打交道,如写文章。
人花1小时完成的事情, LLM 能实现80-90%。
LLM 做的好的领域: 个人助理、客服中心、文本处理、游戏和舆论以及教育。
【一涵注:客服方面LLM已经起到了非常显著的替代效果,从事相关工作一定要当心了。】
工科白领: AI 取代程序员, 还早得很。
过去,编程往往需要程序员自行查找代码示例, 修改、调试, 以适配项目需求。
现在,优秀的LLM把这些步骤自动化, 但这仅限于简单业务场景,还不是真正的写代码。
蓝领阶级: 最难, 唯一做的好的是自动驾驶。
自动驾驶为什么出色?路况是一个封闭的世界,相对稳定,比如有些地方路况十年都不会改变,封闭路况里面开车比较简单。
【一涵注:上海这种复杂路况实现自动驾驶很困难,因为有大量不遵守交通规则的行人和电动车,自行车。不过在封闭的校园和产业园内,阿里的菜鸟已经可以用无人车送快递了。】
无人驾驶还没有完全解决,但进步很大;路上的车多,每个车上都有传感器,从而采集大量的数据,基于大数据做技术开发,比如特斯拉,车上有大量摄像头,有很多车在路上跑,可以采集很多数据来优化算法,而且路况变化不大。
蓝领做的事情, 如端盘子、运货等;而AI 跟这个世界打交道,还很难,机器人理解房间里有什么东西很难(① 缺乏传感器/数据 ② 现实场景不会有很多机器人进入/采集很多数据),除非有技术突破,不然要大量数据作为辅助。
【一涵注:这是一个鸡生蛋的难题,没有机器人参与就没有数据,没有数据就做不了AI,没有AI机器人就没有人用......】
AI 理解蓝领的世界,包括和这个世界互动,可能需要至少 5 年时间。
小结:
文科白领工作,AI 已经能完成简单任务,复杂任务需要继续努力。
工科白领工作,简单任务还需要努力,复杂任务存在困难。
蓝领工作,除了无人驾驶和特定场景(比如工厂,场景变化不大,也能采集大量数据),AI 连简单任务都做不了,完成复杂任务更难。
更多AI互联网领域前沿投资相关内容,长文记录在“一涵笔记”。