腾讯云四年力作,推出首个自研AIGC存储方案

发表时间: 2024-04-15 16:25
大模型时代汹涌而至,可谓势不可挡,引领着行业变革的浪潮。今年4月,艾瑞咨询在《AIGC系列报告——中国AIGC产业全景报告》预测,到2028年,中国AIGC产业规模预计将达到7202亿元,中国AIGC产业生态日益稳固,完成重点领域、关键场景的技术价值兑现,逐步建立完善模型即服务产业生态。
此背景下,数据浪潮的翻涌和模型复杂度的不断攀升,驱动着AI基础设施的变革。
早前,腾讯云曾针对AIGC场景,推出了基于星脉网络的大模型训练集群HCC、向量数据库以及行业大模型服务MaaS等一系列全链路服务。

这次轮到了存储。上周,腾讯云宣布云存储解决方案面向AIGC场景全面升级,针对AI大模型数据采集清洗、训练、推理、数据治理全流程,提供更加高效、可靠的存储解决之道。据悉,这是业内目前首款实现存储引擎全面自研的云存储解决方案。


各方面技术升级,自研存储优势凸显


随大模型的持续演进,传统存储无法满足大模型的研发流程,旧概念已然被颠覆,高效存储数据已成为“模型精炼”不可或缺的一环。新趋势下,腾讯云针对AIGC场景推出的云存储解决方案,对AI大模型的研发和生产流程提供了高效、全面的支撑。
正如腾讯云存储总经理马文霜所说的:“2021年的时候,腾讯云存储产品的性能就领先业界。今天,我们针对AIGC等新型场景进行性能和功能的全面升级。”
具体来说,本次方案对AIGC的价值体现在这几个方面:
在数据采集上,腾讯云自研的百EB级存储引擎YottaStore支撑对象存储COS的卓越性能。YottaStore的研发,成为腾讯云在超大规模数据存储领域取得的重要突破,除了具备超高速公网访问能力,还能实现海量弹性存储规模,为AI大模型的数据收集与清洗提供强有力的支持。
进入数据清洗环节,腾讯云以数据加速器GooseFS,提升数据访问性能,实现了高达数TBps的惊人读取带宽。这一技术突破不仅为计算任务的高速运行提供了有力支撑,更大幅提升了数据清洗的整体效率,确保了数据处理流程的顺畅与高效。
在数据训练上,腾讯云自研了业内唯一的云原生并行文件存储系统——CFS Turbo,它基于自研的分布式高性能存储引擎Histor,通过减少数据拷贝和虚拟化消耗,以及应用侧的自研并行文件传输协议,实现了高性能的存储和访问。此外,CFS Turbo也针对AIGC的多种场景进行优化,提升读写性能,如今已被广泛应用于AI人工智能、高性能计算、自动驾驶、工业仿真和影视特效等多个领域。

数据审核得到优化,为内容生产注入活力

除了重视数据采集、数据清洗和训练环节,人工智能技术的广泛应用,也让更多企业机构意识到:内容的安全与合规在大模型时代也变得愈发重要。据Gartner预测,到2025年,70%的企业机构将把如何可持续、道德地使用AI列为其首要关注的问题。

为了让内容的安全与合规得到保障,给内容生产链路注入活力,存储的“护航工作”指向数据审核。

这一环节中,有数据万象CI高效的审核机制,迅速对上传的媒体内容进行精确筛选,确保不符合规范的内容被及时过滤,从而维护平台的纯净与秩序。此外,为了进一步增强AI作品的安全性和可追踪性,数据万象CI特别引入了图片隐式水印功能,为每个AI作品生成一个独一无二的专属ID,能被精确地识别和追踪。

随后,为了满足现代数据处理需求,一站式智能数据处理、分析与检索解决方案MetaInsight应运而生,通过AI技术的融入,赋予了存储系统更强大、快速的多模态检索能力。据了解,MetaInsight不仅关注数据的存储,更着眼于如何释放数据的潜在价值,使其能够为客户和用户提供真正的帮助。


80%头部大模型企业之选

数据存储需求的爆发式增长,除了为大模型企业带来了新机遇、新价值,也让它们对数据存储与处理方案的高效性、稳定性及安全性要求愈发严苛。毕竟研发中涉及的数据收集与清洗、模型训练以及推理等环节,每一个都不可或缺。

数据显示,腾讯云AIGC存储方案凭借其高效、稳定、安全的特点,帮助企业进行前瞻性布局。目前已获得80%头部大模型企业的青睐,并取得显著成效。

在实际应用层面,MiniMax这家新兴的AI模型公司通过使用腾讯云对象存储COS及智能数据处理平台数据万象,有效地处理和分析了大规模的AIGC内容。腾讯云提供的快速安全审核服务,保障了MiniMax业务的规范运作和稳定性,审核速度达到了百毫秒级别。同时,腾讯云的数据预处理功能也提高了MiniMax的数据流转效率,使其能够更加专注于核心业务的开发和市场推广。

除此之外,百川智能也通过采用该方案而受益。通过引入腾讯云的高性能分布式缓存GooseFS和高性能并行文件存储CFS Turbo,实现了显著提升的IOPS和吞吐量,这在技术上是一个显著的进步。这些技术应用使得百川智能可以高效地执行模型训练的checkpoint读写操作,进而提升了GPU的使用效率和作业处理速度。这些进步不仅为百川智能在业务测带来了实质性的益处,也为其在AI领域的发展奠定了较为坚实的基础。

腾讯云存储总经理陈峥告诉CSDN:“我认为,产品是市场竞争力的核心。我们提前布局了详尽的解决方案,并在细节上精心打磨。因此在AIGC行业蓬勃发展时期,得以抓住了机遇。”


四年布局自研,旨在自主可控

本次发布的AIGC存储解决方案,早在四、五年前已经开始研发。不过,彼时AIGC还没有成为潮流,市场上面对高性能存储的需求并不旺盛,但腾讯云为何那时就决定全情投入?

答案一方面是对市场需求的预见,另一方面是对自研可控的坚持。

腾讯云存储总经理马文霜在接受CSDN采访时透露:“在2019-2021年,我们已经洞察到高性能存储领域未来的巨大需求和潜力。当时,传统AI应用、高性能计算及自动驾驶等领域,已经对存储技术要求极高,无论是存储带宽、文件操作的IOPS还是其他方面,都展现出了明显的增长趋势,这些实际应用场景代表了未来发展高性能存储大有可为。”

彼时,采用现成的非自研的通用方案,是云厂商的普遍做法,也基本能够满足用户对高性能文件存储的需求,但在面对市场快速变化时,原厂的支持未必能及时到位,因此有时难以满足用户日益迫切的需求。

除了洞察市场需求,优先自研的传统一直是腾讯云的“选择”,力求实现技术的自主可控。早在2021年第四季度,腾讯云就主动进行了收入结构的调整,明确将“健康可持续”作为To B业务的增长目标,多项举措中包括提升自研产品的竞争力、推动产品集成以及丰富合作伙伴生态。

技术的可控代表着产品可控,面临不可预测的挑战时,服务能跟得上、做得好。

针对自研的“可控性”,腾讯云存储总经理陈峥坦言这对于腾讯云来说具有重要意义,他表示:“我们最为看重的是产品的可控性,即确保在整个产品生命周期中,我们始终掌握着产品的发展方向和核心技术,确保其始终符合我们的战略目标和市场需求。”

为此,腾讯云投入大量的人力资源进行研发,在当时满足自动驾驶、AI等领域对高性能存储的迫切需求,也为未来的市场竞争奠定基础。如今,面临突如其来的AIGC浪潮,厚积薄发的腾讯云存储在成功接住客户需求的同时,也对方案进行了多方面迭代。

一直以来,存储与算力、网络构成“数据中心三大件”,为大模型的生产提供稳固的数据基石,确保大模型中的信息能够迅速、流畅地进行读写操作。

随着大模型行业逐渐从“百模大战”走向多模态时代,多模态技术在不同场景下的应用日益广泛,这对未来的腾讯云存储来说是一次新考验。面对客户需求的多样化和技术迭代的加速,仍然存在诸多的机遇与调整,腾讯云将如何调整和优化解决方案,以适应这一时代的变革,我们拭目以待。