首席AI科学家LeCun对OpenAI的视频生成模型Sora的悲观预测

发表时间: 2024-02-23 17:02

OpenAI 新推出的 AI 视频生成模型 Sora 一经发布就成为业界焦点，不过 Meta 首席人工智能科学家 Yann LeCun 却并不认同其价值。

LeCun 主要反对 OpenAI 声称 Sora 将最终实现“构建通用物理世界模拟器”的目标。他认为，如果真要实现，OpenAI 当前的方法完全偏离了轨道。

LeCun 在 X 平台（原 Twitter）发帖称：“通过生成像素来模拟世界的行为，就像曾经被广泛弃用的‘通过合成进行分析’一样，既浪费资源又注定失败。”

生成模型 vs. 判别模型：老生常谈的辩论

据IT之家了解，LeCun 被誉为“人工智能教父”之一，也是其中最直言不讳、敢于批评的人。与其他两位“教父”对人工智能发展表达担忧不同，而 LeCun 则继续在 Meta 推进研究，同时不吝于批评竞争对手。

此次他的评论涉及机器学习领域中生成模型和判别模型的长期争论。LeCun 认为，生成模型通过“解释性潜在变量”生成像素的方法效率低下，无法充分应对三维空间中复杂预测带来的不确定性。

简单来说，他认为这些模型试图“推断”太多无关紧要的细节，就像试图计算足球的轨迹，却要分析每一个足球材料的作用，而不是仅仅分析质量和速度。

他在回复帖子时说：“如果你只是想生成视频，这样做没什么问题。但如果你想理解世界如何运转，那么这种方法注定失败。”

LeCun 的 V-JEPA 模型：另一种选择

LeCun 承认，到目前为止，生成式模型在大型语言模型（如 ChatGPT）上取得了一定成功，“因为文本是离散的，符号数量有限”。但如果像 Sora 那样模拟世界，就不仅仅是处理几个字符了。

作为 OpenAI 方法的竞争对手，LeCun 上周公布了他在 Meta 开发的模型 V-JEPA，名为“视频联合嵌入预测架构”（V-JEPA）。

Meta 在一篇博客文章中宣称：“与试图填充所有缺失像素的生成式方法不同，V-JEPA 可以丢弃不可预测的信息，从而将训练和样本效率提高 1.5 到 6 倍。”

本文源自IT之家