OpenAI 新推出的 AI 视频生成模型 Sora 一经发布就成为业界焦点,不过 Meta 首席人工智能科学家 Yann LeCun 却并不认同其价值。
LeCun 主要反对 OpenAI 声称 Sora 将最终实现“构建通用物理世界模拟器”的目标。他认为,如果真要实现,OpenAI 当前的方法完全偏离了轨道。
LeCun 在 X 平台(原 Twitter)发帖称:“通过生成像素来模拟世界的行为,就像曾经被广泛弃用的‘通过合成进行分析’一样,既浪费资源又注定失败。”
生成模型 vs. 判别模型:老生常谈的辩论
据IT之家了解,LeCun 被誉为“人工智能教父”之一,也是其中最直言不讳、敢于批评的人。与其他两位“教父”对人工智能发展表达担忧不同,而 LeCun 则继续在 Meta 推进研究,同时不吝于批评竞争对手。
此次他的评论涉及机器学习领域中生成模型和判别模型的长期争论。LeCun 认为,生成模型通过“解释性潜在变量”生成像素的方法效率低下,无法充分应对三维空间中复杂预测带来的不确定性。
简单来说,他认为这些模型试图“推断”太多无关紧要的细节,就像试图计算足球的轨迹,却要分析每一个足球材料的作用,而不是仅仅分析质量和速度。
他在回复帖子时说:“如果你只是想生成视频,这样做没什么问题。但如果你想理解世界如何运转,那么这种方法注定失败。”
LeCun 的 V-JEPA 模型:另一种选择
LeCun 承认,到目前为止,生成式模型在大型语言模型(如 ChatGPT)上取得了一定成功,“因为文本是离散的,符号数量有限”。但如果像 Sora 那样模拟世界,就不仅仅是处理几个字符了。
作为 OpenAI 方法的竞争对手,LeCun 上周公布了他在 Meta 开发的模型 V-JEPA,名为“视频联合嵌入预测架构”(V-JEPA)。
Meta 在一篇博客文章中宣称:“与试图填充所有缺失像素的生成式方法不同,V-JEPA 可以丢弃不可预测的信息,从而将训练和样本效率提高 1.5 到 6 倍。”
本文源自IT之家