AI训练数据匮乏怎么办?智源研究院贡献开源大数据解决方案

发表时间: 2024-06-14 22:51

南都讯 记者李玲 数据质量决定了大模型的上限,但数据短缺成为制约大模型发展的瓶颈。如何缓解AI公司的数据焦虑?6月14日,第六届北京智源大会上公布了两个数据集:一是千万级高质量开源指令微调数据集,二是开源中英文行业数据集。

高质量的指令数据是大模型性能的“养料”。今年大会上,智源研究院发布首个千万级高质量开源指令微调数据集InfinityInstruct,其中包括基于开源数据集进行高质量筛选的数据,和通过数据合成方法构造的高质量指令数据。

据智源研究院介绍,首批发布300万条经过模型验证的高质量中英文指令数据InfInstruct-3M,未来一个月内将完成 InfinityInstruct 千万条指令数据的全部验证和开源。

当前,大模型正在赋能千行百业,但也面临着海量、优质的行业数据集严重匮乏的挑战。行业数据包含领域特有的知识、术语、规则、流程和逻辑,这使得其往往难以在通用数据集中充分覆盖。与此同时,行业数据具有稀缺性的特点,据智源研究院介绍,当前已知的所有开源行业数据集(文本类)仅有约1.2TB,远远无法满足千行百业的模型需求。

为加速推进大模型技术的产业应用进程,智源研究院还发布了号称全球最大的多行业中英双语数据集IndustryCorpus 1.0,包含总计3.4TB预训练数据集(中文1TB,英文2.4TB),0.9TB的非开源定向申请的行业预训练数据,以及医疗和教育两个领域的开源高质量指令微调数据共61.3万条。

据南都记者了解,IndustryCorpus 1.0覆盖了18类行业的预训练数据集,其中科技类334GB,法律类275GB,医学类189GB,金融类198GB,新闻类564GB,还包含教育、旅游、体育、汽车等,未来将进一步扩展至30类行业。

随着IndustryCorpus 1.0的发布,有望提升模型在专业领域的知识性,助力大模型的行业落地应用。

南都记者注意到,在14日下午举行的智源大会“人工智能+数据新基建”论坛上,智源研究院还联手京能数字产业有限公司发布北京人工智能数据运营平台。

据悉,目前数据运营平台支持三种数据运营模式。一种是“开源开放”模式,它允许用户在遵守使用协议的前提下自由下载使用。另一种则是“积分共享”模式,面向数据工作组内的成员,根据数据贡献实行积分制,即成员单位贡献数据,按照计分标准获取相应积分,同时获得共享数据的权益。还有一种“数算一体”模式针对高价值数据,仅在平台上进行数据加工、训练使用,保证数据不出安全域。