开源数据集的惊人秘密：当红AI公司被卷入其中

发表时间: 2023-12-25 13:42

撰稿 | 清竹

出品 | 51CTO技术栈（微信号：blog51cto）

大模型的浪潮滚滚向前，总免不了闹剧一幕幕上演。

前有字节跳动被 OpenAI封号的罗生门，接着谷歌Gemini自曝中文用百度文心一言训练看呆网友，这次，大模型又在数据集上翻车了！

斯坦福大学近日针对开源模型训练数据集 LAION-5B 展开研究，发现该数据集中包含数百张已知的儿童性虐待材料 (CSAM) 图像，这些图像用于训练流行的 AI 文本到图像生成模型，例如稳定扩散模型。

这里提到的利用 LAION-5B 训练自家模型的公司，正包括当红的 Stability AI 和 Google 。

事情一出，Stability AI 迅速撇清关系：“Stable Diffusion 模型虽然使用 LAION-5B 进行训练，但采用的是经过筛选及微调过的训练集版本，因此并不会影响模型输出结果”。谷歌方面也表示，其 Imagen 模型的迭代并没有使用 LAION 数据集。

1、大模型开源数据集“塌房”

近日斯坦福大学互联网观察站的一份报告显示，大型开源人工智能数据集 LAION-5B 已用于训练流行的人工智能文本到图像生成器，例如 Stable Diffusion 和 Google 的 Imagen，该数据集包含至少 1,008 个儿童性虐待材料实例。

报告称，LAION-5B 数据集于 2022 年 3 月发布，包含来自互联网的超过 50 亿张图像和相关说明文字，还可能包括数千条疑似儿童性虐待材料（CSAM）。该报告警告说，数据集中的 CSAM 材料可以使基于这些数据构建的人工智能产品输出新的且可能真实的虐待儿童内容。

早在3个月前，研究人员就着手梳理 LAION 数据集，通过查看哈希值或图像的标识符，调查其中存在多少儿童性虐待材料 (CSAM)。调查表明，该数据集包括从各种来源抓取 CSAM，其中至少包含 1,679 张从社交媒体帖子和流行成人网站上抓取的非法图像。

目前研究人员已将出现问题的图像 URL 上报美国国家失踪和受虐儿童中心(NCMEC) 和加拿大儿童保护中心(C3P)。这些机构主要使用 PhotoDNA 等哈希工具进行检测，将图像的指纹与其数据库进行匹配。

研究人员表示，他们不会查看被滥用的内容，并且会向受虐儿童中心（NCMEC ）报告匹配结果，必要时由加拿大儿童保护中心进行验证。

2、LAION：数据集没问题，是你的搜索方法有问题

针对此次事件，LAION方面回应媒体：出于“高度谨慎”，它暂时删除了其数据集，“以确保在重新发布之前它们是安全的”。

据LAION 网站称，其数据集不保存图像存储库。数据集主要来自对互联网进行索引，并包含其抓取的图像和替代文本的链接。

翻看LAION官网的FAQ就能明显感受到，LAION 对其数据集的安全性和合规性方面并不是很自信。

比如针对“LAION数据集是否包含可能令观看者感到不安的图像”这一疑问，LAION明确回答：不会！却紧接着把“锅”甩给了用户：“但数据集中的链接可能会导致图像令人不安或不适，具体取决于所使用的过滤器或搜索方法。”

图片

此次“数据集翻车”事件的受害者之一Stability AI 明确表示，虽然确实使用了 LAION-5B 训练其模型，但它们对数据集进行了微调，确保了数据安全性。

Google 方面也迅速划清界限：Imagen 的初始版本仅用于研究，而且是在 LAION-5B 的旧版本（ LAION-400M）上进行训练的，后续迭代并没有使用 LAION 数据集。但这一回应马上被“打脸”：斯坦福大学的报告指出，Imagen 的开发人员发现 400M 包含“各种不当内容，包括色情图像、种族主义诽谤和有害的社会成见”。

其实对于LAION数据集是什么情况，Google心里也有数。早在Imagen发布时，也专门针对LAION-400M做出警示：因为依赖于这种未经整理的网络数据，集成了大模型的社会偏见和限制，因此不适合公开使用。

斯坦福大学的研究人员表示， CSAM 的存在并不一定会影响在数据集上训练的模型的输出，但模型总有可能从图像中学到一些东西。同时研究人员也承认，要完全删除有问题的内容是很困难的，尤其是从人工智能模型中删除。他们建议应该弃用在 LAION-5B 上训练的模型，并在可行的情况下停止分发。

3、有“前科”，还不止一次

谁能想到，这并不是 LAION 的图像数据集第一次受到攻击。

早在 2021 年 10 月，认知科学家 Abeba Birhane（现任 Mozilla 人工智能高级研究员）就发表了一篇研究早期图像数据集 LAION-400M的论文。研究发现，该数据集包含“令人不安的露骨图像和文本对”。

此外，LAION还被卷入两场诉讼之中。

一起是2023 年年初，三名艺术家对 Stability AI 和另外两家公司提起诉讼，称这些公司使用了来自 LAION-5B 的数百万张受版权保护的图像来训练他们的图像生成模型。其中一位知名人士Karla Ortiz还在一次公开讲话中抨击了 LAION-5B 数据集：“LAION-5B包含令人深感担忧的材料，例如私人医疗记录、未经同意的色情内容、儿童图像，甚至社交媒体上我们真实面孔的照片。”

另一起案件的诉讼原因如出一辙。Getty Images起诉Stability AI，指责后者公然侵犯了其知识产权，且规模惊人。Getty Images声称，Stability AI未经许可将其1200万张照片（通过 LAION）取走，并用来训练Stable Diffusion，侵犯了Getty Images的版权和商标保护权。

4、AI训练中的数据合规问题

大模型“大力出奇迹”的暴力美学，决定了拥有的数据越多、质量越高，大模型的能力也就愈加强大。除企业本身积累的数据，开源数据集等也构成大模型数据来源的一部分。如何确保来源繁杂的AI训练数据的合规？成为摆在企业面前的一道难题。

人工智能技术的应用中存在的数据合规问题主要包括以下几个方面：

一是数据隐私保护。个人或组织的敏感信息可能被用于训练机器学习模型和数据分析。因此，需要采取措施保护数据隐私，例如数据加密、匿名化和访问控制等。

二是数据的可信和准确性。模型训练的准确性和性能取决于训练数据的质量。因此，需要采取删除无用数据、数据质量检查、删除敏感信息、数据标注等措施确保数据的可靠和准确。

三是数据的所有权问题。许多数据是由多个组织共享的，例如医疗记录或交通流量数据。因此，需要明确数据的所有权和共享方式，以避免数据的非法使用和侵权行为。

顶尖科技的发展过程虽然可能掺杂一些“小插曲”，但AI大模型的发展之路也不应被这些插曲淹没，而是应该从中得到一些反思。回到这次事件本身，无论是提供开源数据集的组织，还是使用公众数据集的企业，都应该守好行业底线、遵守行业准则，让AI应用能够稳稳落地。

参考链接：

https://venturebeat.com/ai/a-free-ai-image-dataset-removed-for-child-sex-abuse-images-has-come-under-fire-before/

https://www.theverge.com/2023/12/20/24009418/generative-ai-image-laion-csam-google-stability-stanford

https://zhuanlan.zhihu.com/p/621678747

来源： 51CTO技术栈