如何平衡AIGC大模型训练中的隐私和版权问题?

发表时间: 2023-10-16 20:07

生成式人工智能(AIGC)给创意带来了令人惊叹的新可能。通过学习海量数据,AIGC可以在没有人类干预的情况下快速生成文本,绘制图像,创作音乐,编制程序等,大幅提升了创意类工作的效率。

不过,由于训练AIGC需要向其“投喂”大量的训练数据,而这些数据通常来自互联网上的数据集或用户上传的内容,一系列复杂问题也随之产生。当使用人们创作的内容及数据来“投喂”AIGC时,如何界定这些创作内容的数字版权是否受到侵犯?

显失公平的协议条款,后知后觉的平台用户

近来,一些社交平台被曝出擅自将用户发布的文字、照片、视频等内容用于训练其研发的AIGC大模型,引发广泛关注。

以某个深受年轻人喜爱的生活方式分享平台为例,有用户偶然发现自己上传的绘画作品被用于训练平台开发的绘画AIGC模型,并且作品还受到了匿名处理。

然而,在投诉和维权过程中,用户吃惊地发现,原来早在自己注册该平台账户时,勾选同意的用户协议中就已包含了同意授权的条款。

根据条款规定,用户同意授予平台“免费的、不可撤销的、非排他的、无地域限制的许可使用,包括存储、使用、传播、复制、修订、改编、汇编、出版、展示、翻译、表演用户内容或制作派生作品等……”其中的“制作派生作品”这一提法,让平台轻易就获得了用户的提前授权,可以免费将用户上传和发布的内容用于训练AIGC模型。

现实中,许多用户在注册平台账户时往往来不及仔细阅读、反复推敲用户协议内容中的所有条款,就快速点击了“同意”,或者想要使用软件就无法选择不同意。因此这种不一定能完整体现用户的真实意愿。往往等到发现被侵权后,用户才后知后觉地意识到当初的疏忽。

尽管平台通过一套严密的“话术”得到了大量用户数据,节约了训练AIGC模型的成本,但这种做法挑战了用户的信息权利和数字版权,并严重损害用户对平台的信任。也可以看到,平台和科技公司在确保AIGC的使用不侵犯创作者权益方面尚存在较大不足,也缺乏足够监管。

与AIGC交互,个人信息权利遭遇两类困境

社交媒体平台是互联网社会的重要支撑,数以亿计的用户跻身其中,分享他们的生活、思考和创意内容。平台在为用户提供信息服务的同时,也汇聚和存储了海量用户数据。如果平台拿走用户上传的内容来训练其AIGC大模型,却未经用户充分知情同意,就会导致数字版权和数据隐私的双重困境。并且,由于涉及人与AIGC的交互,用户的个人信息权利也较以往更难以响应和主张。

首先是数字版权归属困境。平台用户在上传原创作品时,这些作品的版权理应归属于创作者。虽然平台提供的用户协议中可能包含了授权条款,但用户对于他们的作品被用于AIGC训练的方式、细节和潜在影响通常没有得到充分披露和理解,因此并不能完全确保用户的数字版权和内容创作权益。

其次是数据隐私困境。用户愿意通过平台来发布信息,部分是基于对平台的信任,相信平台会妥善处理他们的个人数据。但是,如果平台还未取得用户充分同意,就擅自将其数据用于AIGC模型训练,且令用户维权无门,这将会给用户数据隐私保护、知情权和数字内容版权等个人基本信息权利造成较大负面影响。

落实个人数字版权,治理面临四项关键挑战

今年8月,中国网信办《生成式人工智能服务管理暂行办法》开始施行,明确规定了生成式人工智能服务提供者的服务规范。其中,涉及个人信息的,提供者应依法承担个人信息处理者责任,履行个人信息保护义务。然而,确立指导原则只是第一步。在AIGC时代,数字内容的版权保护还面临着几项关键挑战,亟须开展针对性的治理和监管创新,确保将平台用户的个人信息权利落到实处。

数据来源和版权归属

研发AIGC需要大量的训练数据,而这通常来自互联网上的各种来源。问题是,这些数据的版权归属并不总是清晰可见。就像前述案例中,用户上传的绘画作品的版权是否依然归他们所有,还是一旦上传到平台就变成了平台的资产,还存在很多复杂的情况需要辨析。未来,应当制定更清晰的法规来厘清用户创作和发布数据的版权归属问题。

用户授权和知情权

当用户上传内容到社交平台时,通常需要同意平台的服务协议。然而,这些协议往往很长且难以理解,用户很少有时间和精力去仔细阅读和理解。等到后续出现侵权问题,用户又会被指责未能充分了解协议中的条款,进而导致对其作品的不当使用。这就涉及如何实现和确保用户的知情权问题,亟须设计更好的合规细则来让用户理解并控制自己的创作内容是如何被使用。

技术判定和取证困难

在AIGC时代,判定数字创作内容是否侵权正变得更加困难。因为AIGC可以生成高度相似但不完全相同的作品,而且它的创作方式是基于机器学习而非直接复制。这使得维权和证明侵权变得更加复杂,今后还需要更多的技术手段和法律支持供给。

平台责任和自律

社交平台在AIGC时代需要承担更大的责任,以符合技术伦理的方式来管理和使用用户上传的内容。这需要构建更加严格的审核机制、更明确的用户授权流程以及更积极的版权保护措施。同时,技术公司也需要加强自律,确保其对AIGC模型的训练和使用不会侵犯用户信息权利,而不是与用户争利。

人工智能技术的创新对于数字社会的繁荣至关重要,但创新需要有底线,数据获取也应合理合法。保护数字版权,提供合理回报,对于基于平互联网台的内容创作和发布者意义重大。当前平台用户正面临着个人难以掌控的情况,他们创造的内容可能会被“悄悄”用于训练AIGC模型,而不仅仅是分享。因此,我们需要建立更明确的法律框架,以平衡技术创新和数字版权保护,降低个人信息风险,维护健康的数字生态。

--------

城市因集聚而诞生。

一座城市的公共政策、人居环境、习俗风气塑造了市民生活的底色。

澎湃城市观察,聚焦公共政策,回应大众关切,探讨城市议题。