“OpenAI新一代大模型Orion没有那么大飞跃”、“Anthropic推迟Claude新模型的发布”、“谷歌即将发布的新版Gemini未达预期”……
近日,多家媒体接连爆料AI公司遭遇广泛的技术升级瓶颈,“推迟”、“质疑”、“未达预期”这类词语频繁出现在报道中。在AI变得越来越触手可及的当下,这些AI公司似乎正在陷入升级困境。
据BusinessInsider 11月27日报道,AI技术的进步正在放缓,大模型性能提升瓶颈、训练数据短缺、训练数据质量问题、推理能力提升遇阻等是这一领域面临的主要困境。
然而,以OpenAI、谷歌等为主的几家头部公司却坚称,AI并没有遇到所谓的“壁垒”和“瓶颈”。他们依然对AI的前景感到乐观,并认为通过开发新型数据源、增加模型推理能力以及应用合成数据,AI模型将继续保持进步。
OpenAI的首席执行官Sam Altman是首批发声的人之一,本月他在社交平台上称:“根本没有瓶颈”(there is no wall)。Anthropic和英伟达的CEO也表示,AI的进步并未放缓。
当下,包括Marc Andreessen在内的一些人士质疑,AI模型的性能提升并不显著,且趋于同质化。对于科技行业来说,这是一个价值数万亿美元的问题,因为如果现有的AI模型训练方法回报递减,可能会影响到新创企业、产品以及数据中心的投资热潮。
据BusinessInsider梳理,AI领域广泛面临的困境包括训练数据枯竭、性能提升遇阻等问题。
在AI研发的早期阶段,企业可能会遭遇两个主要瓶颈:计算能力和训练数据。首先,获取专用芯片(如GPU)的能力有限,影响大模型训练。其次,训练数据的瓶颈逐渐显现,互联网上公开可用的数据资源已经逐渐枯竭。研究机构Epoch AI预测,到2028年,能够用于训练的数据可能会耗尽。
数据质量也成为一大问题。过去研究人员可以在预训练阶段对数据质量要求不高,但现在需要更加关注数据的质量,而不仅仅是数量。
而推理能力的提升和突破被认为是AI发展的下一个关键方向。OpenAI前首席科学家Ilya Sutskever本月对媒体表示,模型在预训练阶段的规模扩展已经达到平台期,且“大家都在寻找下一个突破”。
与此同时,AI的升级成本正在不断增加。随着模型规模扩大,计算和数据处理成本显著增加。据Anthropic的CEO透露,未来一次完整的训练过程可能需要高达1000亿美元的投资,这包括GPU、能源和数据处理的巨大成本。
面对质疑声,各大AI公司相继提出了自己的计划来应对AI发展的瓶颈。
当下,多家公司探索利用多模态数据和私人数据来应对公开数据不足的问题。多模态数据涉及将视觉和音频数据输入AI系统,而私人数据则通过与出版商达成许可协议获取。与此同时,提升数据质量也成为研究的重点,生成合成数据(由人工智能生成的数据)成为一种可能的解决方案。
此外,微软和OpenAI等公司正在努力赋予AI系统更强的推理能力,使其能够在面对复杂问题时作出更深入的分析。
- OpenAI:正在通过与Vox Media和Stack Overflow等组织的合作,以获取私人数据用于模型训练。此外,他们还推出了新的模型o1,尝试通过“思考”来改善推理能力。
- 英伟达:正克服供应限制,确保GPU的供应以支持AI模型的训练。
- 谷歌DeepMind:公司AI实验室正在调整策略,不再单纯追求模型规模的扩大,而是通过更高效的方式来专注于特定任务的专精。
- 微软:在最近的Ignite活动中,CEO Satya Nadella提到,他们正在研究新的“测试时间计算”模式,允许模型在应对复杂问题时花费更多时间,提高推理能力。
- Clarifai和Encord:正在探索多模态数据的使用,以突破公共数据瓶颈。多模态数据结合了视觉和音频信息,可为AI系统提供更多元化的数据源。
- Aindo AI和Hugging Face:正在研究合成数据,以提高数据质量。
本文来自华尔街见闻,欢迎下载APP查看更多