生成式人工智能的繁荣是建立在规模之上的。训练数据越多,模型就越强大。
但现在出现了一个问题,由于人工智能公司通过掠夺互联网来获取训练数据,许多网站和数据集所有者开始限制他人抓取网站的能力。
对于人工智能行业不分青红皂白地抓取网络数据的做法,我们还看到了人们的强烈反对态度。
我们看到,用户选择不同意将自己的数据用于训练,艺术家、作家和《纽约时报》发起诉讼,声称人工智能公司在未经同意或给予补偿的情况下使用了他们的知识产权。
上周,三大唱片公司索尼音乐、华纳音乐和环球音乐宣布起诉人工智能音乐公司 Suno 和 Udio 涉嫌侵犯版权。
三大唱片公司声称,两家初创公司在训练数据中“以几乎难以想象的规模”使用了受版权保护的音乐,使人工智能模型能够生成“模仿真实人类唱片质量”的歌曲。
但这一时刻也为所有生成式人工智能的发展开创了一个有趣的先例。
由于高质量数据的稀缺性,以及建立更大更好模型的巨大压力和需求,我们正处于一个罕见的时刻,数据所有者实际上拥有了影响力。
音乐行业的诉讼传达出了迄今为止最明显的信号,高质量的训练数据不是免费的。
我们可能至少需要几年的时间才能在版权法、合理使用和人工智能训练数据方面获得法律明确性,但这些案例已经开始推动变化。
OpenAI 一直在与 Politico、《大西洋月刊》、《时代》、《金融时报》等新闻出版商达成付费协议,使用并引用它们的新闻资料(和文章)。
YouTube 在 6 月底宣布,将向顶级唱片公司提供许可协议,以换取版权音乐用于训练。
这些变化是喜忧参半的。一方面,我担心新闻出版商正在与人工智能进行不那么靠谱的交易。
例如,大多数与 OpenAI 达成交易的媒体公司表示,该交易规定 OpenAI 引用其来源。
但语言模型从根本上讲是不真实的,而且很擅长编造。报告显示,ChatGPT 和人工智能驱动的搜索引擎 Perplexity 经常产生引用幻觉,这使得 OpenAI 很难兑现其承诺。
这对人工智能公司来说也很棘手。这种转变可能导致他们建造更小、更高效的模型,污染要小得多。
或者,他们可能会拿出一大笔钱,获得更多数据,用来构建下一个更大的模型。
只有资金最充裕的公司,或者已经拥有大型数据集的公司(如拥有 20 年社交媒体数据的 Meta),才有能力做到这一点。
因此,接下来的发展有可能将权力进一步集中在最大的参与者手中。
另一方面,在这一过程中引入“同意流程”是一个很好的想法,不仅对从人工智能的繁荣中受益的权利持有人更好,对我们所有人来说也更好。
我们都应该有权利来决定如何使用我们的数据,更公平的数据经济意味着我们都可以受益。
作者简介:梅丽莎·海基莱(Melissa Heikkilä)是《麻省理工科技评论》的资深记者,她着重报道人工智能及其如何改变我们的社会。此前,她曾在 POLITICO 撰写有关人工智能政策和政治的文章。她还曾在《经济学人》工作,并曾担任新闻主播。
支持:Ren
运营/排版:何晨龙