在全国算力一体化建设的背景下,算力服务器正在扮演着至关重要的角色。
一方面,作为提供计算资源的核心设备,算力服务器是实现全国算力一体化的基础。通过集中或分布式部署,算力服务器为各种应用和服务提供必要的计算能力。另一方面,在全国算力一体化的体系中,算力服务器可以作为算力调度的中心节点,根据需求动态分配和调整计算资源,以满足不同地区和行业的计算需求。
与此同时,在AI训练需求快速上升的背景下,服务器市场规模也在快速扩张。IDC预计,2023年中国人工智能服务器市场规模将达到91亿美元,同比增长82.5%;2027年将达到134亿美元,年均复合增长率为21.8%。
但在全国一体化算力网建设规划下,传统算力服务器也面临着新的升级需求。
神州数码信创业务集团计算产品线总经理吴艳伟在接受21世纪经济报道记者采访时表示,算力需求的波动性算力需求会呈现峰值和低谷,需要数据中心能够灵活应对这种需求波动。例如,在特定事件(如春节)期间,某些地区的算力需求会急剧上升。而在这一背景下,就对数据中心自动化和智能化运维水平提出了极高的要求。
在他看来,未来为了应对算力需求的波动,数据中心需要自动化和智能化的运维工具,以实现算力的快速调度和优化,同时保证安全性和实现预测性维护。
从技术角度来看,AI大模型对于算力服务器提出了无穷尽的需求。
“如果说千亿参数是大模型智能涌现的门槛,那么万卡则是AI系统设计的起点,对目前计算机系统提出了全面的挑战。”
首当其冲的挑战就是计算资源不足,浪潮信息相关负责人表示,AI系统的性能主要源于GPU等加速器,AI需要计算机系统具有强大的异构扩展能力,但是传统的计算机体系结构限制了异构加速器的扩展性。
“加速计算模块一直被作为CPU的配属单元,依靠PCI-e总线接入系统,只支持有限数量的异构单元,并且同CPU的通信带宽也十分有限,因而CXL、NVlink等下一代总线技术发展迅速。”
而在大模型的互联方面,该负责人表示,当前AI训练集群已经从千卡增长到万卡、十万卡,节点间的并行产生大量的通信需求。
相关数据显示,当前张量并行频率有28.4次/S,需要带宽194GB/S,网络的延迟和带宽不足使得计算单元经常因为等待数据而空闲,严重限制了集群效率。例如GPT-4的集群有2.5万块GPU,效率32%~36%,非常低,但在当前技术条件下几乎触顶。
在算法效率方面,由于AI训练是一个超级复杂的计算系统,算法结构与硬件结构匹配不合理、并行化处理不科学等都会导致整个计算平台的利用率偏低。
除此之外,智能算力需求的扩大也导致算力服务器面临巨大能效压力,当前单颗AI芯片的功耗已经突破2700W,单机柜AI服务器的功耗已经突破100KW,这样的热功率密度几乎超越了风冷的物理极限。而且国家“双碳”战略背景下,AI的能效挑战越来越大,不论技术、经济还是政策层面看,数据中心的液冷化是大势所趋。
在上述问题的驱动下,算力服务器也在呈现出一些新的发展趋势。
首先,底层的体系结构创新迎来黄金时代。传统以CPU为中心的体系结构明显不能适应人工智能的计算需求,以数据为中心,基于CXL、NVlink等下一代总线技术的新一代体系结构发展迅速。
与此同时,系统创新越来越重要。单颗芯片性能提升受限,而AI对于大算力的追求永无止境。因此,AI计算系统只能集成越来越多的芯片来获得大算力,AI计算集群的设计起点已经达到了万卡级别。大规模计算系统中,互连、算法等关系整体效率的工作越来越重要,芯片的重要性反而在不断下降。
“智算节点内的P2P高速互连距离是非常有限的,最多能做到1~2个机柜之间的高速互连,所以AI计算必然走向高密度。同时,GPU的功耗越来越高,比如英伟达最新的GB200超级芯片(集成了一颗CPU、2颗GPU)最大功耗达到了2700W,高密度部署与高功耗芯片叠加,一方面使得智算服务器从传统机架向整机柜升级,从单台服务器交付向整机柜一体化交付升级,另一方面使得单机柜功率迅速提升从当前的12~16千瓦走到120千瓦,散热将逐渐走向液冷。AI计算、液冷和整机柜的结合将成为未来趋势。”上述浪潮负责人说道。
此外需要指出的是,在算力一体化布局下,服务器产业链公司也随之迎来了相关发展机遇。
吴艳伟表示,随着技术的发展,数据中心的运维正在更加智能,包括预测性维护和故障自愈能力,以提高运营效率和可靠性。
除此之外,一体化算力网的建设也进一步颠覆了算力业务的传统商业模式。
吴艳伟告诉21世纪经济报道记者,当前算力的传统业务模式如单纯销售服务器硬件等,正在向提供算力租赁等新服务模式转变。这种模式允许不具备建设大型数据中心能力的机构,如高校、研究所和创新企业,通过租用算力来满足其高端计算需求。“未来,算力租赁有望作为一种新的商业模式,允许在算力需求高峰期将算力调度到需求高的地区或行业,从而提高资源利用效率。”吴艳伟说道。
更多内容请下载21财经APP