消除存储障碍,让AIGC梦想成真

发表时间: 2024-04-15 20:46

在大模型和AIGC的新纪元,我们正见证一个前所未有的技术革命。从更自然的人机对话,到图片、视频生成,AIGC技术正在彻底改变我们创造、学习和交流的方式。

然而,这一切进步的背后,是对存储技术的极端要求。举个例子,一家致力于开发AIGC应用的公司,如何高效地处理和存储大量的数据,以不断训练和优化其AI大模型。这不仅要求存储系统能够处理PB级的数据量,还要求在数据采集、清洗、训练及推理的每一个环节,都能提供高速、可靠的数据访问。

怎么解决这个问题呢?腾讯云的实践探索也许能给我们带来有益的借鉴。4月8日,腾讯云宣布云存储解决方案面向AIGC场景全面升级,将大模型的数据清洗和训练效率提升了一倍。

AIGC场景下,高性能存储要迈过去的三道坎

正如腾讯云存储总经理马文霜所说,随着大模型参数规模的持续扩大,对计算基础设施三大件——算力、网络、存储,都提出了新的要求。目前,支撑大模型的算力、网络在快速迭代。算力方面,英伟达用了两年的时间从H100升级到了H200,让模型训练性能提升了5倍;在网络方面,已经从以前的25G、50G、100G,逐步发展到200G的网络,带宽提升了超过6倍。那么,对于存储而言,又有哪些新的需求呢?

涵盖了数据采集与清洗、模型训练、以及推理三大关键环节,每一个环节都对存储系统提出了新的要求和挑战。

数据采集与清洗的挑战:数据量和多样性、多协议支持的需求、高性能和大带宽的要求。

在AIGC技术的实施过程中,数据采集与清洗阶段是基础。这一阶段的核心任务是收集来自不同源的数据,进行预处理和清洗,以确保数据的质量和可用性。这一任务面临着几个主要问题:数据量巨大、类型多样化、需要多协议支持,以及对高性能和大带宽的需求。

随着数字化信息的爆炸式增长,AIGC系统需要处理的数据量急剧增加。这些数据不仅量大,而且种类繁多,从文本、图片、视频到复杂的传感器数据等应有尽有。

不同类型的数据往往需要通过不同的协议进行收集和访问,例如,文本数据可能通过HTTP协议收集,而实时视频流则可能通过RTSP协议传输。这就要求存储系统能够支持多种通讯协议,以便与各种数据源顺畅对接。

高效的数据处理不仅需要大容量存储,还需要高性能和大带宽以支持快速的数据读写和传输。特别是在数据预处理和清洗阶段,大量的数据需要被快速读取、分析、转换和再存储,对存储系统的性能提出了极高的要求。

模型训练的挑战:频繁的checkpoint保存、高并发读写的需求。

在AIGC技术的发展过程中,大模型训练阶段尤其关键,它直接影响到最终模型的性能和效率。这一阶段主要是频繁的checkpoint保存和高并发读写的需求。

大模型训练过程中,为了防止数据丢失并能够从最近的进度恢复,需要定期保存模型的状态,即checkpoint。这些checkpoint包含了模型的参数、超参数以及优化器的状态等信息,对于维持训练的连续性至关重要。然而,随着模型规模的不断增大,这些checkpoint的体积也随之增加,导致保存操作消耗大量时间和存储资源,对存储系统的写入能力提出了巨大挑战。

而且,AI大模型的训练通常需要并行处理大量数据,以提高训练效率。这就意味着存储系统必须能够支持高并发的读写操作,确保数据可以快速、准确地被读取和更新。特别是在使用分布式训练时,多个节点同时对存储系统进行访问,对存储系统的并发处理能力和响应时间提出了极高的要求。

推理与数据治理的挑战:数据安全与可追溯性、内容审核与合规性。

在AIGC应用的推理阶段,企业面临着数据安全、可追溯性、内容审核和合规性等一系列挑战。这些挑战不仅关乎技术的有效实施,还直接影响到企业的信誉和合法运营。

随着数据泄露事件的频繁发生,确保敏感信息的安全变得尤为重要。同时,数据的可追溯性也至关重要,这不仅有助于追踪数据流向和处理过程,以评估数据安全性,还能在发生安全事件时迅速定位问题。这就要求存储系统能够记录详尽的数据访问和处理日志,并且能够对数据进行加密处理,以防止未授权访问。对于AIGC生成的内容,必须遵循相关法律法规和平台规范,这就需要进行严格的内容审核。

以一个基于AIGC技术的新闻自动生成平台为例,该平台能够自动采集网络上的新闻资讯,结合用户的阅读偏好生成个性化新闻内容。存储系统不仅需要对存储的数据进行加密,还要记录详细的数据处理日志,以实现数据的可追溯性。在新闻内容生成后,平台还需要对内容进行审核,确保不含有误导性信息、侵权内容或违反法律法规的信息。这就要求存储系统能够支持与内容审核工具的高效集成,快速筛查和过滤内容,同时还要有能力处理大量的内容审核请求,保证审核的实时性和准确性。

有什么药方呢?

正如上面所分析的那样,在大模型、AIGC技术快速发展的背景下,数据存储面临着前所未有的挑战。巨大的数据量、多样化的数据类型、以及对高速访问的迫切需求,都在推动存储技术的创新和进步。为了应对这些挑战,业界从多个方面进行创新探索,主要集中在以下几个方向:

高性能分布式存储

为了应对PB级别数据量的处理需求,采用可扩展的分布式存储系统成为了行业的共识。这类系统通过分散数据到多个节点上,不仅能够提高存储容量,还能通过并行处理提升数据访问速度。这种存储方案的核心优势在于其弹性扩展能力,可以根据需要动态调整资源,以应对数据量的不断增长。

并行文件存储

并行文件存储系统通过允许多个进程同时对文件系统进行读写,大幅提高了数据处理的效率。这对于大模型训练尤为关键,因为它能显著缩短模型训练的时间,加快迭代速度。

数据加速与缓存

数据加速器和缓存技术的应用,进一步提升了数据访问速度,实现了快速数据加载和亚毫秒级的低延迟。通过将频繁访问的数据存放在更快的存储介质上,如SSD或内存中,系统可以迅速响应数据请求,大幅提高AIGC应用的响应速度和用户体验。

多模态数据检索分析

AIGC技术的一大特点是处理多模态数据,如文本、图片、视频等。为此,提供多模态数据检索和分析工具变得尤为重要。这些工具能够帮助用户快速找到所需数据,优化数据管理,提高数据的可用性和价值。

数据安全与合规工具

在AIGC领域,数据安全和合规性是不容忽视的重要问题。集成的内容审核、数据加密和合规性工具能够确保数据在整个生命周期中的安全性,同时满足不同地区和行业的法律法规要求。这不仅保护了用户隐私,也为企业的合法运营提供了保障。

这些方案的共同目标是构建一个既能够处理海量数据,又能满足高速访问需求,同时确保数据安全和合规性的存储基础设施。

4月8日,面对AIGC技术发展带来的存储挑战,腾讯云宣布云存储解决方案面向AIGC全面升级。该解决方案专为AI大模型的全链路数据处理需求设计,采用全自研存储引擎,覆盖了数据采集、清洗、模型训练、推理及数据治理等关键环节,针对AIGC场景进行了深度优化。

腾讯云的AIGC存储方案,集成了对象存储COS、高性能并行文件存储CFS Turbo、数据加速器GooseFS以及数据万象CI等核心产品。这些产品合力打造了一个支持PB级数据量和多协议访问的高性能分布式存储系统,显著提高了数据处理的速度和效率。

其中,腾讯云对象存储COS能够支持百EB级别的存储规模,为大模型提供了强大的数据采集能力。同时,对象存储COS通过GooseFS实现数据访问性能的大幅提升,支持TBps级别的读取带宽,为数据清洗环节提供了高速运行的支撑。

在模型训练环节,高性能并行文件存储CFS Turbo通过自研并行文件存储系统,实现了TiB/s级别的读写吞吐和百万OPS的元数据性能,大幅缩短了checkpoint的写入时间,从而提高了训练效率。此外,CFS Turbo还采用了自适应条带化、分布式元数据等技术,进一步优化了AIGC场景下的性能。

为了应对大模型推理场景中对数据安全与可追溯性的高要求,腾讯云的数据万象CI提供了一系列数据治理工具,如图片隐式水印、内容审核、多模态数据检索等,确保了数据在全生命周期的安全性和合规性。

据马文霜介绍,腾讯云的这套AIGC存储解决方案以其全面的自研技术和出色的性能,已经吸引了包括MiniMax、百川智能、智谱、元象等80%的头部大模型企业采用。

那么,腾讯云的这套方案“疗效”如何呢?

MiniMax,依托对象存储COS与智能数据处理平台数据万象,承载了AIGC海量内容的处理分析业务,其中百毫秒级的安全审核能力保障了业务的合规平稳运行,数据的预处理能力大幅提升了数据流转的效率,让业务可以更聚焦在核心场景的应用与推广。

百川智能,借助高性能分布式缓存GooseFS与高性能并行文件存储CFS Turbo,提供千万级IOPS和百GiB/s吞吐,1分钟内完成checkpoint读写,大幅提升大模型训练GPU使用率和作业效率。

解除存储瓶颈,AIGC应用才能腾飞

随着存储技术的快速进步,我们正步入一个新时代,其中数据存储不仅仅是关于保留信息的行为,而是成为了推动大模型和AIGC技术革命的关键因素。

正如在腾讯云身上发生的那样,随着存储技术的优化,数据存储的成本正在迅速下降。这意味着,对于处理和存储海量数据的AIGC企业来说,能以更低的成本实现数据的快速访问和分析。成本的降低不仅直接提高了企业的经济效益,还降低了技术创新的门槛,使得更多的创业公司和研究机构能够参与到AIGC技术的研发和应用中来。

此外,存储技术的进步,为跨行业协同合作打开了新的大门。这种合作不仅能够加速信息的流通和知识的传播,还能促进不同领域间的创新融合,激发新的应用场景和业务模式,让医疗、金融、教育等领域能够共享AIGC技术带来的好处。

展望未来,我们还将见证大量的技术创新不断涌现。例如,未来的存储系统将通过深度整合AI技术实现智能化管理,如自动优化数据存放位置以提升效率和降低成本。同时,存储与计算的融合趋势将使数据就地处理成为可能,有效减少数据传输时间和能耗。此外,新兴的非易失性内存技术将提高存储性能和可靠性,支持更复杂的AIGC应用。边缘计算的融合使得数据可以在产生地近距离处理,减轻中心化数据中心的负担,降低延迟。这些进展共同推动存储技术向更高效、智能、可靠的方向发展,为AIGC应用提供强大支撑。

未来,随着腾讯云等技术先锋持续推进存储技术的创新,我们可以期待大模型、AIGC技术在解决社会挑战、提升人类生活质量方面发挥更大的作用。我们相信,大模型、AIGC所展示出的美好蓝图绝非梦幻泡影,而是正在变为触手可及的现实。