AIGC 的风已经吹了一年有余,但背后大模型的训练数据到底从哪里来、是否合乎版权等问题就像 “房间里的大象”,总是被有意或无意回避。北京互联网法院近日受理了国内关于 AIGC 数据集侵权的首批案件,由四位画师状告小红书未经授权使用作品训练模型。
事情要追溯到今年 4 月,小红书旗下公司推出名为 “Trik AI” 的 AI 绘画应用。但是 7 月底 @ 是雪鱼啊 @ 正版青团子 等画师陆续发现 Trik AI 生成的 AI 图片与自己的原创作品在色调、笔触、构图等方面极其相似,几乎以假乱真。最有可能的解释是 Trik AI 在未经授权的情况下,使用画师创作的原图训练模型,这种行为被圈子里的用户称为 “炼丹”。
在此风口有用户发现,7 月 15 日小红书更新了用户服务协议,其中用户发布的内容将 “授予小红书公司免费的、不可撤销的、非排他的、无地域限制的许可使用”。结合 “炼丹” 事件,小红书一度被骂上热搜,大量画师宣布在小红书停止更新并转移到其他平台。Trik AI 8 月中旬从应用商城下架,但是经《晚点财经》确认,小红书用户服务协议并未更改,至今仍是 7 月 15 日更新的版本。
而近日阿里发布的图生视频工具 Animate Anybody,也被指出模型训练数据来自美国明尼苏达大学的学术专用数据集,可能存在版权问题。数据集主要是从 TikTok 抓取的视频,从网红到素人的视频都有,均未经用户授权。
至于最受欢迎的 AIGC 工具 ChatGPT,也一直有版权争议:OpenAI 表示其训练数据都经过预处理,并且删除了受版权保护的部分——但这点一直备受质疑。今年 8 月,OpenAI 宣布网站运营者可以主动在 Robots.txt 文件中禁止 GPTBot 爬虫程序运行或者屏蔽其 IP,避免内容被抓取并用于训练大模型。据悉,纽约时报、路透社等媒体很快就在网站内加入了相关代码。
AIGC 提升了我们的效率,但创作者的权益同样值得尊重。这次画师和小红书的案件,四位原告均表示不接受调解,要让案子一定有判决结果:“如果赢了,那以后行业也有个维权案例,对所有原创作者都有利,如果输了,我们起码知道国内对 AI 的态度和标准”。(实习生张帆)