生成式AI时代的数据存储管理策略:如何控制成本不失控?

发表时间: 2024-06-20 16:23

无数据,不AI。

由生成式AI掀起的这一次人工智能浪潮,对企业的产品、服务乃至商业模式都有着颠覆性的影响。因此,在多云、大数据、生成式AI等多元技术的驱动下,数据要素变得愈发重要的同时,企业对于数据存储的需求也在发生深刻变化。

那么,生成式AI带来哪些显著不同的数据存储需求?究竟什么样的数据存储适合构建企业未来的数字底座?面对迅猛的生成式AI浪潮,企业在数据存储层面需要做好哪些准备,从而让成本不失控?

近日,在数据存储领域深耕多年的厂商Hitachi Vantara带来了它的答案:Hitachi iQ AI解决方案和单一混合云平台Virtual Storage Platform One。正如Hitachi Vantara亚太区首席技术官Matthew Hardman所言:“与其他厂商相比,Hitachi Vantara不仅仅是数据存储技术的提供商,更依靠日立集团多年的行业经验和运营技术经验,为众多行业用户带来各种行业解决方案。”

AI时代数据需求发生巨变

数据是企业在AI时代取得成功的关键。

此绝非虚言。随着数据要素的价值愈发突出,每家企业所积累的数据以及自身的数据能力,正成为其数智化转型升级中最为关键的差异化能力。

尤其是多云环境和生成式AI浪潮的兴起,数据乃企业生成式AI应用创新的关键。Gartner预测,到2026年,超过80%的企业将使用生成式AI的API或模型,或在生产环境中部署支持生成式AI的应用,这将对企业数据存储需求产生根本性影响。

具体来看,随着多云环境成为越来越多企业的基础设施环境标配,以及企业逐步对生成式AI应用进行尝试与实践,首先带来的就是远比过往复杂的数据环境。例如,多云环境必然会带来企业数据的分散式分布;而生成式AI涉及到数据收集、预处理、训练和推理等阶段,也进一步让企业数据环境走向复杂化。

另外,企业应用走向现代化以及生成式AI应用的场景愈发丰富,都会带来更加复杂且快速的数据处理需求。例如,生成式AI集群规模越大,可能会导致系统故障概率上升,随之而来的就是高频度的CheckPoint给存储带来的写入带宽挑战。

更加关键的是,数据存储作为底座,所扮演的角色在发生转变——除了安全存储和管理好数据之外,还需要承担起数据供给的重任。以多云环境为例,数据要素只有流动起来才能更好地发挥出价值,这需要底层存储提供保障;而生成式AI同样需要数据与模型的快速结合,这离不开存储系统的数据供给。

Matthew Hardman认为,今天很多企业都在考虑应用包括生成式AI在内的AI技术,也并不缺乏数据,甚至拥有了太多数据,但仍然受困于如何从数据中获取价值,“Hitachi Vantara的目标就是从实际需求的角度来提供合适的产品与解决方案,帮助企业解决AI、大数据、多云环境等具体数据存储的挑战,并迅速获得有益的成果。”

生成式AI不能让成本失控

毫无疑问,生成式AI已成为确定性趋势。

但不能否认,生成式AI的应用作为一项复杂的工程化项目,依然面临着极为复杂的技术门槛和相当高昂的成本,这也是很多企业对生成式AI“望而却步”的根本原因。

以存储为例,当前绝大部分企业在生成式AI应用上依然采用烟囱式的建设模式,数据获取、数据预处理、模型训练与评估、模型部署应用四个阶段都有独立的存储集群,各个阶段的数据流通、协同充满挑战,而且不得不承担极高的数据存储成本。

Matthew Hardman直言:“很多企业正处于对生成式AI的早期采纳探索阶段,非常容易就出现成本失控的情况。”

因此,存储层面需要化繁为简,并且针对大模型的训练、调优等承担起数据供给的重任。Gartner《Top Storage Recommendations to Support Generative AI》报告就认为,到2028年,四分之三拥有生成式 AI 训练数据的组织将部署单一存储平台来存储数据,这一比例显著高于 2024 年的 10%。

显然,“GenAI in a box”融合存储解决方案在未来会愈发重要,它通过一套存储来承载AI数据处理全流程的业务,实现数据的高效流通与协同,并且集成了主流的GPU硬件、软件能力,大幅降低生成式AI部署与应用的难度,实现开箱即用。

为此,Hitachi Vantara基于NVIDIA最新的AI技术,并结合Hitachi Vantara的下一代存储平台,带来了Hitachi iQ AI解决方案。

Hitachi iQ AI解决方案技术架构

Hitachi iQ AI解决方案不再是单一的产品,而是从客户实际需求出发,提供不同规模和配置的选项,以满足不同企业、不同场景的差异化需求。众所周知,目前数据与大模型主要有三种方式:检索增强生成(RAG)、微调和持续预训练,每种方式对于基础设施、企业能力要求是不尽相同的,因此Hitachi iQ AI解决方案可以从灵活性、可用性等方面来帮助各种类型的企业。

“在生成式AI的早期探索阶段,其实很多企业是不清楚自身具体需求和使用场景的。此时,利用Hitachi iQ AI解决方案来进行早期验证就非常合适,它不仅能够快速部署应用,还能够控制成本,而且一旦验证成熟,就可以进行大规模投资。”Matthew Hardman介绍道。

不仅如此,Hitachi Vantara还会依托Hitachi在各行各业的丰富经验、研发和实验室资源,来帮助各行各业的用户找到他们AI应用的场景和用例,从而帮助企业在AI时代找到快速获益的途径或方式。

多云时代需更好释放数据价值

除了生成式AI之外,多云环境下的数据管理也迅速成为企业不可忽视的挑战。

众所周知,随着微服务、容器等技术的迅猛发展,越来越多现代化应用不断涌现。现代化应用往往具有部署环境广泛、业务弹性多变、管理复杂和安全性要求极高等特征,对于企业的数据流动、数据协同和数据安全的要求大幅提升。

因此,一个统一的数据存储平台在未来会成为必须。统一的数据存储平台需要对包括结构化数据、非结构化数据、第三方存储数据等进行统一管理,简化数据管理等工作,提升数据的可用性,从而驱动数据的高效流动与协作。

为此,Hitachi Vantara推出了Virtual Storage Platform One(简称:VSP One)平台。VSP One产品包括:VSP One SDS块存储、VSP One SDS云存储和VSP One文件存储。

Matthew Hardman认为,VSP One的核心理念是帮助企业构建起统一的数据生态系统,通过统一的数据平面和管理平台,以及Data Fabric技术,消除数据孤岛和碎片化现象,实现跨所有数据类型、支持所有环境部署的全面数据管理。

例如,依托日立存储虚拟化操作系统(SVOS),VSP One可以确保数据实现跨设备和跨地点的收集、整合与访问,使得企业可以轻松获得数据,并利用数据驱动业务发展;在防勒索方面,VSP One将数据库备份到对象存储之中,利用对象存储数据不可逆的特性,使得企业在遇到勒索风险时可快速恢复数据;再如,在数据保护方面,VSP One块存储具有动态磁盘保护(Dynamic Drive Protection,DDP)功能,可以实现对存储资产的最高级别保护,并显著加快重建速度。

“VSP One是一个数据平台,接下来还将融入更多技术,帮助企业在现有环境中不断获得最新的技术创新,从而为数智化转型与升级注入更多动力。”Matthew Hardman最后表示道。