AI的食粮：大数据的来源解析

发表时间: 2024-04-13 09:08

李志起杨明川姚佳
编者的话：人工智能（AI）大模型的训练、进化都离不开数据。外媒近日报道称，科技公司利用语音识别工具转录视频网站上的视频，形成对话文本数据来训练AI，也有公司用社交媒体上具有版权争议和隐私权争议的数据来训练AI——这些“捷径”是否合法？合规、高质量的AI训练数据应该从哪里来？普通人的数据安全如何保障？
合规性、高质量与多样性的平衡
李志起
随着AI技术的不断进步，大模型训练对高质量数据的需求日益凸显。如何确保训练数据的合规与高质量并重？三个原则应遵守。
第一，坚守合规底线，明确数据来源。任何数据的采集和使用都必须遵守法律法规，尊重原创精神和知识产权。合规的数据来源不仅是对创作者权益的保障，也是AI技术健康发展的基石。合规数据首先应该从公开数据集中获取，这些数据集通常由学术机构、政府组织或大型企业公开发布，如ImageNet等图像数据集就为图像识别技术的发展提供了有力支持。其次，用户在社交平台上产生的内容，如文本、图片等，也是宝贵的训练资源，但在使用时需确保获得必要的授权。此外，企业还可以通过与合作伙伴共享数据、购买专业数据服务等方式获取训练数据。这些途径虽然可能需要更多成本投入，但能有效规避法律风险，同时也更有可能获得高质量的数据资源。
第二，合法获取信息，保护知识产权。企业首先应建立一套完善的信息获取流程，通过定期的培训，提高员工对法律法规的认知和遵守意识，以确保任何信息的采集都应在明确的目的和合法的框架内进行，避免盲目和过度的数据采集。其次，要尽其可能确保隐私保护与数据安全，涉及个人隐私的数据，如用户的身份信息、联系方式等，都需要进行严格的匿名化和加密处理。第三，在使用他人的知识产权时，如专利、商标、著作权等，企业应严格遵守相关法律法规，确保获得权利人的明确许可，并按约定支付相应的使用费用。
第三，注重数据质量，提升AI性能。数据质量是训练AI模型的关键因素之一。高质量的数据不仅可以提高模型的准确性，还能增强模型的泛化能力，使其更好地适应各种场景。
此外，AI企业必须注意加强数据标注的准确性，以免影响模型的训练效果。标注错误的数据会导致模型学习到错误的信息，从而降低其性能。数据的多样性和代表性也不应被忽视。可以通过收集不同来源、不同类型的数据来增加数据的多样性，同时还可以通过数据增强技术来扩充数据集，提高模型的泛化能力。与此同时，数据的时效性和更新频率也显得尤为重要。应定期更新数据集，确保模型的时效性和准确性，适应新的挑战和需求。（作者是北京市政协经济委员会副主任，振兴国际智库理事长）
三种方式获取训练数据
杨明川
常规的AI训练数据可以来自组织生产环境中的数据积累、开源数据集和人工标注数据。对于百亿、千亿参数规模的大模型而言，训练数据来源广泛且规模庞大，大模型厂商往往不会详细透露其训练数据来源或公开其训练数据的详细组成。对于企业而言，合法获得训练数据授权的方式主要有三种。
一是收集开源数据集。通常由学术机构、政府组织或企业公开发布，涵盖各种类型，如图像、文本、音频、视频等。可在此基础上进行二次处理、清洗加工和人工抽检标注，形成高质量的训练数据集；二是充分挖掘自身场景中积累下来的数据。以笔者供职的企业为例，公司积累了大量专业运维案例、专业报告、日志和专业问题回复等数据，可以在保证脱敏和遵守数据许可协议的前提下，用于大模型的继续训练和精调；三是来自行业合作伙伴的高质量数据。通常以“合规数据授权+收益分成”的模式，形成合力共建具备行业数据优势的大模型底座。
需要关注的是，随着大模型飞速迭代，公共数据正在被快速耗尽。随之而来的是私有数据合法使用的难题。用户生成内容，包括公开发表的内容、点赞转发等记录数据，对于数据中保持最新信息、拓展知识范围具有重要意义。但需建立相对健全的机制，在遵守相关法律法规、保证隐私安全、防止滥用的前提下，为用户生产内容提供共享或有偿交易的可能性。目前面临的挑战如下：
首先，高质量数据非常昂贵。伴随着公开数据的“枯竭”，如何收集和使用更多的高质量数据，并进行加工和标注，依然是一个绕不开的选择。需要企业投入更多成本，并协同更多专业人士参与精细的标注工作。
其次，大模型训练周期较长，且外部知识飞速更新。如何解决“知识过期”的问题，需要以检索增强生成的方式，即在大模型做出回应之前，通过检索相关知识，提供参考信息，为大模型回答的过程补充新知识。
第三，由于数据量庞大且来源多样，数据中存在自相矛盾、不合规、偏见冒犯等情况的内容将难以全部检测出来并剔除。会导致训练得到的模型底座存在输出带有偏见、泄露隐私信息的可能性。企业需重视对模型数据的审查和脱敏工作，综合考虑技术、政策、伦理和法律法规多方因素，持续改善相关流程。（作者是中国电信研究院大数据与人工智能研究所所长）
企业要发展，也应重履责
姚佳
无数据，不AI。AI大模型的迭代发展离不开大体量优质数据“喂养”。由此，“数据淘金”成为AI产业高质量发展的必由之路，优质数据也成为产业竞相争取的稀缺资源。
优质的数据不仅关乎发展，更关乎安全。2023年11月，多国签署的《布莱奇利宣言》，其中提到AI可能会生成欺骗性内容，可能产生被有意误用或无意控制等风险。针对上述风险的破解之道同样来自于数据——我们可以通过获得“金子”一样的好数据来训练大模型等途径，来进行相关破解或应对。
然而，AI的发展并非是孤立的。尽管在发展生成式AI市场之时，存在过多限制数据使用，导致“市场失败”的可能性。但从目前看，科技公司为了更好地训练大模型，侵害他人隐私和知识产权的风险不容忽视。
举例来看，美国近年来的几起诉讼，无论是针对OpenAI、GitHub的集体诉讼，还是针对Stability AI，以及美国万名作家签署作家协会信函呼吁AI行业保护作者权益等，这些诉讼和事件均指向利用未经授权使用作品训练AI产品或者在开源社区中可能侵害他人版权的问题，且至今仍在激烈讨论，未能形成定论。
隐私风险也同样值得关注。比如，科技公司未经用户允许，就从手机应用程序中收集用户的音乐偏好、图像信息、位置信息、财务数据乃至私人对话等，用以进行AI数据训练。这些行为都存在侵权风险。
上述案例和争议，要求相关企业在发展的同时，严格遵循现有法律规则。我国于2023年7月颁布《生成式人工智能服务管理暂行办法》，其中第7条规定了生成式人工智能服务提供者的训练数据处理活动要求，即应使用具有合法来源的数据和基础模型；涉及知识产权的，不得侵害他人依法享有的知识产权；涉及个人信息的，应当取得个人同意或者符合法律、行政法规规定的其他情形等等内容。
企业作为AI大模型训练的主体，需更加注重义务和履责，充分考虑对于已有著作权人和个人信息主体的权利保障与利益平衡。需要关注的是，相关企业义务是全方位、体系化的，包括不局限于隐私保护义务、个人信息保护等义务、数据安全保障义务、数据质量保障义务等。（作者是中国社会科学院法学研究所教授）▲

AI的食粮：大数据的来源解析

热门阅读

推荐阅读