整理 | 王启隆
责编 | 唐小引
出品丨AI 科技大本营(ID:rgznai100)
本文为 CSDN 编辑整理,未经授权禁止转载。
“首先,他是少数几位创立了对全球数十亿人生活产生深远影响的公司的企业家之一,他的公司已经成为社会结构的重要组成部分,并且创造了先进的计算服务。”
“其次,他将自己创办的公司发展成为价值超过一万亿美元的巨头。”
“第三个让我印象深刻的点:他还是一位大学辍学生。”
Facebook 时代的推荐系统
黄仁勋:Mark,欢迎你参加自己的第一次 SIGGRAPH。作为计算领域的一位先驱者,现代计算的推动者,我必须邀请你来到 SIGGRAPH。
扎克伯格:相信这会很有趣。我听说你今天已经讲了五个小时了?
黄仁勋:没错。这里是 SIGGRAPH,在座的 90% 都是博士。SIGGRAPH 之所以伟大,是因为它汇聚了计算机图形学、图像处理、人工智能和机器人技术。多年来,许多公司在 SIGGRAPH 上展示了令人惊叹的技术,包括迪士尼、皮克斯、Adobe、Epic Games,当然还有英伟达。我们在这里做了大量工作。
今年,我们发表了 20 篇有关人工智能与模拟交叉领域的论文,包括使用人工智能帮助模拟实现更大规模、更快速度,例如可微分物理 (Differentiable Physics),还有创建了用于人工智能合成数据生成的模拟环境。这两个领域正在紧密结合,我对英伟达在 SIGGRAPH 上所做的工作感到非常自豪。
在 Meta,你们也做了许多惊艳的 AI 研究,有时候媒体会报道说 Meta 最近几年才涉足 AI 领域,这让我觉得好笑。要知道,Facebook AI 研究院 (FAIR) 的工作,比如大家都在使用的 PyTorch 就出自 Meta。你们在计算机视觉、语言模型和实时翻译方面取得了突破性的进展。
所以,我的第一个问题就是,你是如何看待 Meta 今天在生成式 AI (Generative AI) 方面的进步,以及你是如何将其应用于增强你们的运营或是引入新的能力?
扎克伯格:这里面有很多值得讨论的地方。首先,非常高兴能够来到这里。Meta AI 迄今为止已经做了大量的工作,并且这也是第八次参加 SIGGRAPH。虽然我们与你们相比算是新人。
黄仁勋:没错,你今天穿得很酷,但这里还是我的地盘。
扎克伯格:确实,谢谢你能让我来到你的地盘(观众大笑)。我记得最早是 2018 年的时候,我们在 SIGGRAPH 展示了早期的手部追踪工作,这项技术会用于虚拟现实(VR)和混合现实(MR)头显。
此外,还有很多关于 Codec Avatars 的进展 —— 这是一项实时虚拟人技术,最终目标是通过消费级头显就能驱动,所以我对此感到非常兴奋。因此,我们做了很多显示系统的相关工作。这是一个集成的系统,一些未来原型和研究是为了让混合现实头显变得更轻薄,但同时具备非常先进的光学堆栈和显示系统。这些都是 Meta 当时在 SIGGRAPH 首次展示的东西。
所以,我很高兴今年 Meta 不仅会谈论元宇宙相关的事情,而且还会分享很多 AI 相关的研究。正如你所说,我们曾在 Facebook 时期启动了 FAIR(Facebook AI 研究院),在后来启动 Reality Labs 之前,我们一直在做这件事情。所有关于通用人工智能 (AGI) 的东西,会是一场有趣的革命,而且我认为它最终会让所有产品都以一种有趣的方式发生变化。
可以看看我们已经拥有的主要产品线,比如 Instagram 和 Facebook 的信息流和推荐系统。我们的产品文化不仅仅是关于与朋友联系,而是加入了排名机制,比如假如朋友做了什么重要的事情,比如你的表亲有了宝宝之类的事情,你总会希望这种事情能排在推荐系统顶部,如果在信息流里把它埋得很深,用户会非常生气。所以排名很重要。
在过去几年里,社交媒体平台上的内容类型和数量发生了显著变化,出现了大量的公共内容而非仅仅来自朋友的帖子。这导致推荐系统变得尤为重要,因为它需要处理的不再是数百或数千条帖子,而是数百万条内容。这样的规模使得推荐算法成为了一个复杂的技术挑战。
通过生成式 AI 的进步,我们预计很快会进入一个新的阶段,在这个阶段中,用户在 Instagram 等平台上看到的大部分内容都将基于他们的个人兴趣从全球范围内被推荐给他们,即使他们没有关注这些内容的创作者。我认为将来许多内容都会通过这些 AI 工具来创建。
一方面,创作者会利用这些工具来产生新的原创内容;另一方面,还会有部分内容是专门为每个用户即时创建的,或者是通过对现有内容进行整合和综合产生的。
这正是我们的业务核心部分如何演变的一个例子,这一过程已经持续了大约 20 年。
黄仁勋:人们如今逐渐认识到,推荐系统实际上是人类构想出的最大型的计算系统之一。
扎克伯格:虽然推荐系统可能看起来像是另一条技术路径,但它实际上与当前的生成式 AI 是相似的。两者都依赖于 Transformer 架构,这是一种旨在构建越来越通用的模型的技术。
黄仁勋:我认为将非结构化数据嵌入特征会是个不错的方向。
扎克伯格:确实,推动质量提升的一大因素在于,以前我们会为不同类型的内容使用不同的模型,比如有一个模型专门用于短视频(reels)的排名和推荐,而另一个模型则用于长视频。
最近的一个例子是,我们做了一些产品层面的工作,以便让系统能够统一显示各种类型的内容。但我们发现,当创建更加通用的推荐模型时,可以覆盖所有类型的内容时,其效果会显著提升。这其中的原因之一可能是,我们可以从更广泛的内容池中抽取内容,这样就不会出现像从不同池子中抽取那样出现的效率问题。当模型变得更大、更通用时,效果会越来越好。
我梦想有一天,Facebook 或 Instagram 这样的平台,可以用单一的 AI 模型,将所有不同类型的内容和系统统一起来,它们能在不同的时间段有着不同的目标。比如,有些内容只是为了向你展示你今天可能感兴趣的有趣内容,而有些则是为了帮助你长期建立起你的社交网络,比如你可能认识的人,或是你可能想要关注的账号。
黄仁勋:而这些多模态模型往往更加擅长识别模式、微弱信号等等。很有趣的是,AI 在你们公司已经如此深入,你们一直在构建 GPU 基础设施,运行这些大型的推荐系统已经很长时间了,而现在你们正在……
扎克伯格:在这方面我们实际上起步较晚,现在才开始使用 GPU。
黄仁勋:我是想说得委婉点(观众大笑),你们今天是来我这做客的。
扎克伯格:你太客气了。在后台的时候,你提到了勇于承认错误之类的事情?
黄仁勋:那也没必要突然主动说出来嘛。
扎克伯格:我们还是很坦白的。
黄仁勋:如今生成式 AI 最吸引人之处在于,当我使用现有技术时,感觉就像与 WhatsApp 直接互动一样。我很喜欢这种情景:只要打字,AI 就能生成相应的图片,要是我再回去修改文字,它又会生成新的图片。
比如说,我如果想画一个中国老头在夕阳下喝着威士忌,旁边还有三只狗,一只是拉布拉多,一只是金毛贵宾犬,一只是伯恩山地犬 —— AI 都能生成相当逼真且准确的形象。
用 DALL-E 3 绘制黄仁勋的这段 Prompt
扎克伯格:没错,我们正朝着这个方向发展。
黄仁勋:现在的那些文生图功能甚至还可以把我的照片放进去,让 AI 画我自己。
扎克伯格:我对此非常兴奋,最近我还花了很多时间和我的女儿们在一起,用这项技术把她们想象成美人鱼之类的角色,这真的很好玩。这就是生成式 AI 的另一半意义所在。我认为,很多生成式 AI 不仅会极大地提升我们一直以来的工作流程和产品,还会创造出许多全新的事物。所以 Meta 的人工智能还有一个 AI 助手的概念,能够帮助人类完成各种任务,而这将是极具创意的。而且,这些 AI 将非常通用。你不必仅仅将它们局限于此。它们可以回答任何问题。随着时间的推移,我认为当我们从像 Llama 3 这样的模型升级到 Llama 4 以及更高级别的模型时,它将不再仅仅像一个简单的聊天机器人那样,给出一个提示就做出回应,而是会很快进化到只需给它一个意图,然后它就可以在多个时间尺度上自行运作。
未来的 AI 应该能够自我理解和消化人类给它的意图。之后,它们可能会进行“思考”,相当于启动需要数周或数月时间的计算任务,然后再返回结果,就像告诉你世界上发生了什么事情一样。我相信这将是非常强大的进步。
黄仁勋:现在的 AI 有点像是普通的对话 —— 你说话,它就回答。但很明显,每当面临任务或问题时,我们会思考多个方案,甚至构思出一个决策树,然后在心中模拟每一步的选择,想象每种可能决定的不同结果。人类会像这样做规划,未来的 AI 也会这么做。
当我听到你关于 Creator AI 的愿景时,我感到非常兴奋。我认为这真的是一个非常棒的想法。请向大家介绍一下这个 Creator AI 和 AI Studio,它们将如何帮助你实现这一目标。
这是近期的一个新闻:Meta 推出了 AI Studio,允许用户在 Instagram 或网络上创建自己的 AI 形象。这个工具使用 Llama 3.1 构建,任何人都可以创建和发现 AI 角色。创作者和企业主可以将 AI 角色作为自己的延伸,回答常见问题,包括分享在帖子中展示的服装链接、过去的视频和关于自己的事实。此外,用户还可以自定义 AI 角色的名称、个性、语气、头像和标语。不仅如此,AI Studio 还支持创建更有限的 AI 角色,例如提供烹饪提示、帮助撰写 Instagram 标题和生成表情包的 AI。
扎克伯格:有些其他行业的公司正在构建一个中心化的智能体(Agent),而我们的愿景是,未来并不是只有一个 AI 模型,而是赋予所有用户能力,让他们可以为自己创建智能体。无论是庞大的创作者群体还是数以百万计的小企业,最终可以迅速整合所有内容并快速搭建起商业智能体,以便与客户互动、进行销售和支持等。
现在开始推广的是 AI Studio,它基本上是一套工具,最终可以让每个创作者构建出自己的专属 AI,主要是作为智能体或助手,让社区成员能够与其互动。
这里有一个基本的问题,那就是一天的时间有限。如果你是一个创作者,你希望更多地与你的社区互动,但你受到时间的限制;同样,你的社区也希望与你互动,但这很难做到,因为时间有限。因此,最佳的选择就是让人们创建这些实体,即训练它们来帮你做事。
它并不是直接与创作者本身互动,但就像创作者原本会在社交系统上发布内容一样,现在大家可以通过智能体来做这件事。此外,我认为人们会根据不同的用途创建自己的智能体。一些智能体会被定制用于完成特定任务,人们可以根据需要调整和训练它们;一些可能是娱乐性质的;还有一些可能只是有趣的、滑稽的,具有独特的态度,这些可能是我们不会在 Meta AI 助手中加入的特性,但我认为人们很感兴趣去看到并与之互动。
还有一个有趣的用例是,人们使用这些智能体来模拟应对困难的社会情境。这对我来说有一点令人惊讶,Meta AI 的一个主要用例已经是人们用来模拟他们即将面临的困难社会情境。无论是职业情境,比如“我想向我的经理询问晋升或加薪的方法”;还是个人关系中的冲突,比如“我和朋友发生了争执”或“我与女朋友出现了难题”,都可以通过这种方式在一个完全无偏见的环境中模拟对话过程并获得反馈。
但是,很多人不仅仅想要与相同的智能体互动,无论是 Meta AI 还是 ChatGPT 或者其他的工具,他们希望能够创建自己的东西。这就是我们在 AI Studio 的愿景,但它也是更大愿景的一部分,即不应该只有一个大的 AI 供人们交互。如果存在各种各样的不同智能体,世界将会更加美好和有趣。
黄仁勋:我觉得非常酷的一点是,如果你是一名艺术家并且有自己的风格,你甚至可以将你的所有作品集合起来。AI 可以创作出与你的艺术风格相似的作品,你甚至可以给 AI 一幅画作或草图作为灵感,而将来,每一个餐厅、每一个网站也可能都会拥有这样的 AI。
扎克伯格:我认为在未来,就像每个企业都有电子邮件地址、网站和社交媒体账户一样,我认为每家企业都将拥有一个与客户交流的 AI 智能体。历史上,有些事情做起来比较困难。比如,对于任何一家公司来说,可能都有一个客户服务部门,它通常与销售部门分开。作为 CEO,你并不希望这样,但这是因为它们需要建立不同的技能。当你建立抽象层和组织结构时,很多时候,这些部门通常是分开的,因为它们被优化以完成不同的任务。
我认为最理想的情况是,它们能融合成一件事。因为从顾客的角度来看,你并不在乎哪个是客服,哪个是销售。无论你是尝试购买商品还是遇到已购买商品的问题,你都不希望有不同的渠道。顾客只想要一个地方可以解答自己的疑问,从而以不同的方式与企业互动。我认为这个道理对创作者来说也适用。
黄仁勋:任何一次与客户的互动,特别是当他们提出投诉时,都会使你的公司变得更好。
扎克伯格:是的,完全正确。
黄仁勋:事实上,客户与 AI 的所有互动都将捕捉到公司的专有知识,比方说如何处理公司事务,AI 都可以纳入分析从而改进自己。
扎克伯格:所以,企业 AI 的这个概念还能有更多的集成,我们在这方面仍处于早期阶段。但对于 AI Studio 来说,我认为令人兴奋的点在于能让人们创建自己的 AIGC 智能体,并通过创造这些智能体产生飞轮效应。
黄仁勋:那么我可以使用 AI Studio 来与我的图像集合作吗?我可以把我这辈子写过的所有东西加载进去吗?这样就可以用作我的参考资料?然后每次我回来使用它时,它都会加载记忆,记住上次结束的地方。
扎克伯格:可以而且,就像任何产品一样,随着时间的推移,训练它的工具会变得更好。这不仅仅是关于你想让它说什么。我认为通常创作者和企业都有他们想要避开的话题。这些都在不断改进。我认为最理想的情况不仅是文本,而是能够与智能体进行视频聊天。这涉及到之前提到的 Codec Avatar 项目。“飞轮效应”正在快速转动,还有很多新的东西需要构建。
在我看来,即使基础模型的进步现在停止了 —— 当然这应该不会发生 —— 我们仍然会有大约五年的行业创新来弄清楚,如何最有效地利用迄今为止建立的所有东西。实际上基础模型和基础研究的进步仍在加速。这是一个非常疯狂的时代。
黄仁勋:这是你的愿景吗?
扎克伯格:对,而且说实话,这一切都是英伟达带来的。
黄仁勋:噢,谢谢。我们俩都是 CEO,本质上都是“娇贵的花朵”,其实需要很多的支持才能走到今天。
扎克伯格:我们现在已经相当老练了。你和我是行业中两位长期存在的创始人。
黄仁勋:确实是这样。
扎克伯格:我只是觉得,你的头发变白了。而我的只是变得更长了。
黄仁勋:(愣了一下)我的头发是变灰了,而你的头发是变卷了。到底怎么回事?
扎克伯格:它一直都是卷的。
黄仁勋:哦,我一直留短发。(两人大笑)
要是我知道成功需要这么长时间的话……(黄仁勋 30 岁成立了英伟达,而扎克伯格在大学期间就辍学成立 Facebook)
扎克伯格:你就不会创业了?
黄仁勋:我就跟你一样辍学创业了。(早点开始,头发就不会变白了)
扎克伯格:提前起步。这是我们性格上的一个很好的区别。
黄仁勋:你比我早了 12 年起步。这很不错,我们都会继续前进的。
黄仁勋:我很欣赏你刚刚提到的一个愿景,那就是每家企业都能有自己的智能体。在公司里,我也希望每位工程师和每位软件开发人员都能拥有一个 AI。可能正是因此,你开源了 Llama。
我个人认为,Llama 2 的问世是去年 AI 领域最重要的事件。
扎克伯格:我觉得是 H100。
黄仁勋:这可能是个先有鸡还是先有蛋的问题。我们俩谁先?
扎克伯格:H100。(两人大笑)
其实单说 Llama 2,它应该也不能对标 H100。
黄仁勋:它的地位类似于 A100。我说它是最大的事件,是因为当它发布时,它激活了整个行业。从那之后,每家医疗保健公司都在构建 AI,每家公司都在构建 AI,大型公司、小型公司、初创公司都在构建 AI。它使得每个研究者都能够重新参与到 AI 中,因为他们有了一个起点可以做些事情。
而现在,Llama 3.1 版本已经发布了。人们的热情非常高涨。我认为它将能够支持各种应用。但请分享一下你的开源哲学。你们开源过 PyTorch,它现在是进行 AI 工作的框架。如今你们又围绕 Llama 形成了一个完整的开源生态系统。我认为这太棒了。但这一切是怎么来的?
扎克伯格:Meta 开源过一系列基础设施工具,比如 React、PyTorch 等。所以当 Llama 出现时,我们对开源早已具备了积极的态度。对于 AI 模型的开源而言,我认为有几个角度来看待这个问题。
在过去 20 年里,我在公司中构建了许多东西,这非常有趣。其中最难的一点,是我们不得不通过竞争对手的移动平台来发布自己的应用程序。一方面,移动平台为整个行业带来了巨大的好处,这是很棒的。另一方面,通过竞争对手发布你的产品是具有挑战性的。
在我成长的那个时代,Facebook 的第一个版本是在网页上,那还是很开放的。随后转向移动平台的好处是,现在每个人口袋里都有一台手机。缺点是,我们因此受到了很多限制。当你回过头审视这些计算世代时,会发现存在一种很大的就近效应。每个人都只看移动平台,并认为,由于封闭的生态系统,苹果基本上赢得了市场并设定了规则。当然,从数据上显示,Android 手机的持有量更多,但苹果基本上主导了整个市场。所有的利润都归苹果,Android 在很大程度上跟随苹果的发展。
所以,我认为苹果在上一个计算世代中明显胜出。但情况并非总是如此。因为如果你从移动时代再往前回去一代,会发现苹果在 PC 世代其实还是在做封闭的事情。而微软,虽然它不是一个完美的开放公司,但相比苹果,Windows 在各种 OEM 上运行,不同的硬件和软件,这是一个更开放的生态系统,Windows 成为了领先的生态系统。在 PC 世代中,开放生态系统胜出了。
我希望在下一个计算世代中,我们将回到一个由开放生态系统获胜,并再次成为领先者的状态。既然总会有一个封闭的和一个开放的,那两者都有理由存在,都有各自的好处。我不是极端主义者,Meta 也有闭源的产品,并非一切都是开源的。但我认为总体而言,对于整个行业正在构建的计算平台而言,如果软件尤其是开放的,则有很大的价值。这就是我的开源哲学。
AI 方面,Llama 开源。而在 AR 和 VR 方面,我们构建了混合现实的 Horizon OS,这也是一个开放的操作系统,类似于 Android 或 Windows,从而与许多不同的硬件公司合作,制造各种不同的设备。我们基本上只是想让生态系统回到开源的状态。我非常乐观地认为,下一个计算世代中,开放的平台将会胜出。
接下来 10 年或 15 年内,我的一个目标是,确保 Meta 能够构建社交体验的基础技术 —— 这听着有些自私,但在过去我想这么做的时候,却受到了平台提供商的阻止。我当时心想:“去你*的。到了下一代,我们要彻底构建下去——”
黄仁勋:现在还在直播的。
扎克伯格:对不起,对不起。
黄仁勋:我可以用嘴巴人工消声,像这样,“哔”。
扎克伯格:抱歉,一谈到封闭平台我就生气。(观众大笑)
黄仁勋:这其实很好。在这个世界里,有人致力于构建最好的 AI,并将其作为服务提供给世界。但如果你想,你仍然可以构建自己的 AI。
举例来说,我不喜欢自己制作皮衣夹克。我更喜欢让别人为我制作皮衣夹克,所以皮革开源对我个人来说帮助可能不大。
但我觉得,让这项服务得到开放,是相当不可思议的。你们现在的 Llama 3.1 有 405B,70B 和 8B 三个版本。你可以用它来生成合成数据,用更大的模型来指导小的模型。尽管更大的模型将更为通用,更不容易出错。但你仍然可以构建一个小的模型,以适应你想要的任何操作领域或运营成本。
你们构建模型的方式是透明的,此外你还有一个世界级的安全团队,世界级的伦理团队,可以以一种让每个人都明白它被正确构建的方式来构建模型。所以我真的很喜欢这点。
扎克伯格:我们想要把 AI 模型从某个封闭生态中剥离出来。AI 应用没法单独构建的软件,需要围绕它建立一个生态系统。所以,Meta 不是为了乐于助人去做开源,而是如果不开源它,它实际上可能都无法很好地工作。此外,这对生态系统是有帮助的。这会使我们正在构建的模型,通过拥有一个强大的生态系统,成为最好的模型。
黄仁勋:看看有多少人为 PyTorch 生态系统做出了贡献,那是非常大的工程投入。仅在视频方面,英伟达可能就有数百人专门致力于优化 PyTorch。
扎克伯格:当某样东西成为一个行业的标准时,其他人也会围绕它开展工作,所有的系统都会为此而优化。这将使每个人受益,但它也将与我们正在构建的系统很好地协同工作。我认为这只是如何最终变得非常有效的例子之一。所以人们仍然没有真正理解,开源策略将会是一个很好的业务策略。
黄仁勋:我们非常喜欢它,并围绕它建立了一个生态系统。
扎克伯格:你们一直都很出色。我们每次发布什么东西,你们总是第一个优化它,我对此表示感谢。
黄仁勋:优秀的工程师和敏捷的团队是我们的优势。这就是 CEO 的工作,我认识到 Llama 的重要性,因此推出了 AI 工厂,帮助人们构建自己的 AI 系统。现在如果有人想将 AI 集成到数据飞轮中,他们自己公司的机构知识会编码并嵌入 AI 当中,风险很大,但开源模型的出现解决了这个问题,让更多人能够受益。
为了让人们学会怎么具体构建自己的 AI,我们又推出了 NVIDIA AI Foundry 项目,提供工具和专业知识。现在有 Llama 技术进一步助力企业 AI 化工作,完成后交由企业自主运营。这一切都源于 Llama 开源技术的推动。
扎克伯格:让人们能够从大模型中提炼出自己的模型,将是非常有价值的新事物。因为正如我们在产品层面所讨论的那样,至少我认为不会出现一个唯一的超级 AI 智能体。同样,我认为也不一定会出现一个所有人都喜欢的模型。
黄仁勋:我们有一个芯片 AI,用于芯片设计;有一个软件编码 AI,可以理解 USD,因为 Omniverse 使用 USD 编码;还有一个理解 Verilog 的软件 AI;有一个收集了英伟达内部 bug 数据库的 AI,知道如何帮助诊断 bug 并将其发送给正确的工程师……
所有这些 AI 都是基于 Llama 构建和优化的。如果有一个用于芯片设计的 AI,我们并不想询问它关于政治和宗教之类的问题,因此还需要对其进行护栏设置。我认为每个公司基本上都会针对他们拥有的每一个功能拥有为其定制的 AI。他们需要帮助来做到这一点。
扎克伯格:我认为未来的一大问题是,人们是否会主要使用较大的模型,或者他们是否希望拥有更大、更复杂的模型,而不是仅仅为他们自己的用途训练模型。
黄仁勋:之所以如此,是因为工程师的时间仍然非常宝贵。现在我们正在为 Llama 3.1 405B 优化性能。而正如你所知,405B 无法装入任何 GPU。因此,NV Link 的性能非常重要。每个 GPU 都通过称为 NV Link 开关的无阻塞交换机连接。例如,在 HGX 中有两个这样的开关。即使成本只便宜几分钱,我们也无所谓。我们只是想确保向他们展示最佳质量的结果。
扎克伯格:Llama 3.1 405B 的成本大约是 GPT-4o 模型的一半。达到这个水平已经相当不错了。但我也认为,对于要在设备上运行或希望使用较小模型的人来说,他们会将其简化。因此这就产生了一整套不同的服务。
黄仁勋:用于芯片设计的 AI 可能每小时花费 10 美元。如果持续使用它,并将其共享给很多工程师,那么每位工程师实际上拥有的 AI 的成本并不高。而我们本就会付给工程师很高的薪水,因此每小时几美元的成本可以增强一位非常有价值的员工的能力。
黄仁勋:接下来谈谈下一波 AI 前沿技术。
我真的很喜欢你们在计算机视觉相关所做的工作。我们内部经常使用的一个模型是 Meta 推出的 Segment Anything Model (SAM)。
Meta AI 推出的一款 AI 模型,只需单击即可“切割”任何图像中的任何物体。
现在我们正在视频上训练 AI 模型,以便理解世界模型。我们的应用场景涉及机器人技术和工业数字化,并将这些 AI 模型集成到 Omniverse 中,以便能够更好地模拟和表示物理世界,使机器人在这些 Omniverse 世界中运行得更好。你们还和雷朋眼镜合作,Meta 将 AI 引入虚拟世界的愿景非常有趣。给我们讲讲吧。
扎克伯格:Segment Anything 模型近期已经推出了第二代。现在它更快了,还可以在视频中进行“切割”工作……这个演示好像用的是我家牧场的牛?
黄仁勋:上次你到我家,我们一起做了费城奶酪牛排。下次你记得把你牧场里的牛也带过来。
扎克伯格:那个确实很好吃 —— 但你才是主厨,我其实只是副主厨。
黄仁勋:我得吐槽一下,那天晚上吃完的时候,我礼貌性地问 Mark,“你吃饱了吗?”,结果 Mark 的反应就是,“我不知道,可以再来一份吗?”
扎克伯格:但你当时的语气就是,“我们还能再做一份。”
黄仁勋:当我们问“你吃饱了吗?”的时候,通常正常人的回答会是,“哦,是的,我饱了。”
扎克伯格:你得给我再做一次奶酪牛排,Jensen。
黄仁勋:再让我吐槽一下他的强迫症。
当时我转过身去,正准备做奶酪牛排,我说,Mark,切西红柿。
所以我把刀递给 Mark,他切西红柿切得非常精准,每一块都被切得精确到毫米。但真正有趣的是,我原本以为他切的所有西红柿都会被堆在一起,就像一副扑克牌一样。当我转过身时,他却说他需要另一个盘子。原因是他放的每一片西红柿都不相互接触,一个盘子不够放。
扎克伯格:这不是强迫症 —— 你如果需要所有西红柿堆在一起,你应该告诉我。我只是副主厨。
黄仁勋:这就是为什么他需要一个不评判他的 AI。(观众大笑)
扎克伯格:那样的 AI 确实很酷。
黄仁勋:所以二代的 Segment Anything 模型可以识别运动中的牛,并跟踪每一头牛的运动?
扎克伯格:对,我们可以用它做出很多有趣的特效。而且,它是开源的,整个行业中也会有更多的严肃应用。
项目链接:https://github.com/facebookresearch/segment-anything-2
科学家们用这个来研究珊瑚礁和自然栖息地,以及景观的变化等等。但能够在这个视频中做到这一点,并且是零样本学习(Zero-Shot),能够与它互动并告诉它你想追踪什么,这是一项很酷的研究。
黄仁勋:我想到了一个使用场景。假如你有一个仓库,里面有很多摄像头。仓库的 AI 正在观察发生的一切,此时一堆箱子倒了,或者有人把水洒在地上,或者其他即将发生的事故 —— AI 会识别出这些情况,生成文本,发送给某人,帮助事情顺利进行。
这是一种使用方式。而不是像现在那样 24 小时录制,每当有事故发生,再去回溯并检索那一刻。AI 应该只记录重要的时刻,因为它很清楚自己在看什么。因此,视频理解模型、视频语言模型对于所有这些有趣的应用来说非常强大。
智能眼镜是下一代的“手机”
黄仁勋:除此之外,你们还在做些什么?
扎克伯格:智能眼镜。我认为在考虑下一个计算平台时,我们会将其分为混合现实头戴设备和智能眼镜。我认为人们更容易理解穿戴它们,因为现在几乎每个人都在戴眼镜,最终这些眼镜会被升级为智能眼镜。世界上有超过十亿人将会这样做。这将是一件大事。
对于 VR/AR 头戴设备,我认为有些人会觉得它们适合游戏或其他用途,有些人则不这么认为。在我看来,它们都将存在于这个世界中。我认为智能眼镜将是下个世代的手机,而混合现实头戴设备将更像工作站或游戏机,当你坐下进行沉浸式体验并且想要访问更多的计算资源时,你就需要用到头戴设备。眼镜只是一个非常紧凑的形式因素。会有许多限制,就像你无法在手机上进行相同级别的计算。
黄仁勋:而这一切,正好发生在通用人工智能技术突破的时候。
扎克伯格:对于智能眼镜,Meta 基本上是从两个不同的方向来解决问题。
一方面,我们一直在构建理想中全息 AR 眼镜所需的那种技术。这不是像 VR 或 MR 头戴设备。它们看起来像眼镜,但它们距离你现在佩戴的眼镜还有一段距离。我的意思是 —— 眼镜非常薄,即使是现在的 Meta 雷朋眼镜,也不足以将所有需要的技术装入其中以实现全息 AR。
未来几年内,我们将逐渐接近目标。智能眼镜仍然会相当昂贵,但至少会先开始产品化。我们处理这个问题的另一个角度是,从好看、时尚的眼镜开始。这一点是通过与世界上最好的眼镜制造商 Essilor Luxottica 合作。他们基本上制造了你使用的所有大品牌,比如雷朋(Ray-Ban) 、奥克利(Oakley)、Oliver Peoples 等等。
黄仁勋:他们是眼镜版的英伟达。
扎克伯格:总之,我们的目标是打造好看的智能眼镜,在此基础放入尽可能多的技术。或许可能不会在技术上很快达到理想状态,但它首先会有一个好看的外观。目前,眼镜上有相机传感器,因此你可以拍照和拍摄视频,你实际上可以在 Instagram 上直播,你可以在 WhatsApp 上进行视频通话并向对方直播你看到的内容。它还有麦克风和扬声器,扬声器实际上是开放式耳道。因此很多人发现它比你的耳塞更舒适。它可以听音乐,这是一种私密体验,很酷,人们喜欢这样。你还可以在眼镜上面接听电话,只需要个传感器就能让你与 AI 交谈。
如果你在五年前问我,我们会在 AI 技术实现之前拥有全息 AR 技术吗?我会说,很有可能,因为全息 AR 看起来似乎只需要图形技术的持续进步,且 Meta 一直在朝着这个目标不断取得进展。
结果是,大语言模型实现了技术突破,我们在拥有全息 AR 技术之前先有了相当高质量的 AI,并且以极快的速度持续改进。
黄仁勋:所以这是一种没有被真正预料到的反转。
扎克伯格:我的意思其实是,Meta 其实幸运地处于有利位置,因为我们一直在开发所有这些不同的产品。但我想你会得到一系列不同价格点的不同眼镜产品,其中包含不同程度的技术。因此,根据目前的 Meta 雷朋眼镜,我猜测无显示器的 AI 眼镜,价格约为 300 美元,而这款的销量应该是最高的,最终将有数千万甚至数亿人拥有这种基础版智能眼镜,并拥有与之高度交互的 AI。
然后,带显示器的版本显然也会很棒。但它会增加一点重量到眼镜上,并且会使产品价格更昂贵。因此我认为会有很多人想要那种全息显示器。但也有很多人希望最终能够拥有非常轻薄的眼镜。
黄仁勋:而对于工业应用和一些工作应用,我们更需要全息显示器的版本。
扎克伯格:我认为对于消费级产品也是如此。
黄仁勋:你是这么认为的?
扎克伯格:在疫情期间,当每个人都开始远程办公时,我对这个问题考虑了很多。当时我们花费了所有时间在 Zoom 上,但在未来,离那种全息影像会议也不远了而这与 AI 技术的进展息息相关。
黄仁勋:我认为我可以接受的是,一个不需要全天佩戴的设备。
扎克伯格:这项技术将整合进不同款式的镜框之中,从纤细至厚重。我们可能暂时还无法实现与你目前所佩戴的眼镜完全相同的全息眼镜,但在较为时尚的厚重镜框眼镜中,实现这一技术并不遥远。如今的太阳镜已经达到了这样的尺寸。但我可以想象这种情景,因为这是一个非常实用的设计风格。
黄仁勋:你们要搞时尚的话,那你还得修炼一些时尚品味?
扎克伯格:我的品味还在初期阶段。如果未来业务的一个重要组成部分将是生产人们佩戴的时尚眼镜,这是我应该开始更加关注的事情。
黄仁勋:我可能也需要让那个每天都穿同一套皮衣的我退休了。(观众大笑)
扎克伯格:眼镜也有其独特之处。我认为,即便对于手表或手机而言,人们也不希望外观雷同。因此,我认为这个平台将会倾向于成为一个开放生态系统。因为我认为人们对多样的外形和风格的要求将会非常高。不会像每个人都想戴同一种类型的眼镜,由他人设计的那种。我认为这不会适用于这种情况。
懂“时尚”的 AI 人
黄仁勋:我们正处在一个不可思议的时代,整个计算堆栈正在被重塑。我们思考软件的方式发生了改变,如 Andrej Karparthy 提到的软件 1.0 和软件 2.0,而现在基本上处于软件 3.0 时代。从通用计算过渡到由生成式神经网络处理的计算方式。我们现在能够开发的能力和应用程序在过去是难以想象的。
这项技术,即生成式人工智能,没有其他技术能以如此快的速度影响消费者、企业和科学界。并且这项技术能在气候技术、生物技术和物理科学等多个科学领域发挥作用。在我们遇到的每一个领域,生成式人工智能都处于根本转型的核心。此外,正如你所说,生成式人工智能将对社会产生深远的影响。
我非常期待的一款产品是,有人早些时候问过我是否会有个“黄仁勋 AI”?这其实正是你所说的 Creator AI,构建自己的 AI。我加载了我写的所有东西,并以我回答问题的方式对其进行微调,希望随着时间的积累使用,它对于那些只想提问或讨论想法的人来说会成为一个非常好的助手和伙伴。
正如我们刚刚聊做牛排的时候提到的,这种 AI 不会评判你的行为。你不必害怕被评判。因此你可以随时与它互动,但我只是觉得,我认为这些都是非常了不起的事情。
我们经常用 AI 写很多东西,仅仅给它三四个主题就能有很好的效果。现在,这些都是我想写的基本内容,并以我的声音写作,并以此作为起点。所以现在我们可以做的事情太多了。与你合作真是太棒了。
我知道建立一家公司并不容易,你从桌面转向移动,再到 VR,再到 AI,所有这些设备。观看这一切真的很不寻常。NVIDIA 自己也经历了多次转变,我知道这样做有多困难。你知道,我们俩多年来都遭受了很多挫折。但这就是成为先驱和创新者所需要的。所以看着你的成长真的很棒。(现场掌声如雷)
扎克伯格:我看着你们的旅程时也感觉很有趣。
我们曾经历了一段时期,每个人都说:“是的,一切都将转移到移动设备、便宜的设备上。”
而你们继续坚持做显卡,做大型系统,继续做昂贵的设备。
黄仁勋:我们选择了另一条道路,没有跟风去做“越来越小的设备”。
扎克伯格:这其实也是一种关于时尚的问题。
黄仁勋:对,当时一点也不时尚,但现在我们很酷。英伟达从 GPU 开始,一点点做到现在,扎克伯格的数据中心里已经有近 60 万张 H100 了。
我的重点是,你们构建的这些系统太惊人了,它们是巨大的系统,极难协调,极难运行。你曾说过,你们进入 GPU 领域比大多数人都晚。但你们的规模却比任何人都要大。看着这一切的发展真是让人感到惊奇,祝贺你所取得的一切成就,你现在已经是一名“时尚偶像”了。
扎克伯格:谢谢。(掌声)
黄仁勋:等一下,还没结束。上次那顿牛排晚餐后,我和 Mark 拍了一张照片,结果在网络上疯传。
我觉得他穿我的夹克没有任何问题。等等,这照片是我吗?感觉风格不太对。(观众大笑)
总之,Mark 这次又给我准备了一件衣服。它是黑色的,皮质的,还有抽褶。这里有点冷。我想我会穿上试试。
扎克伯格:看着不错。可以给你再配一条金链子。下次见的时候,记得带上。
黄仁勋:那么,公平起见。我也为 Mark 准备了一件皮衣庆祝今年的SIGGRAPH。SIGGRAPH 对我们公司来说是个大事,RTX 当年就是在这里发布的。
当然,这是件全新的皮衣。真的是两小时前才拿到的。所以我们又可以交换一下衣服了。
扎克伯格:好,那我就穿你的。我的意思是,你身上这件更有价值,因为它已经被穿过了。
黄仁勋:Mark 穿上皮衣就像个壮汉。
扎克伯格:你也一样。
黄仁勋:好的,各位观众,感谢你们的观看,这里是黄仁勋和马克·扎克伯格。