天翼云智算云能力体系详解:全面解读未来云计算趋势

发表时间: 2024-06-19 18:20

【环球网科技报道 】数字技术是科技革命和产业变革的先机。近年来,人工智能浪潮席卷全球,2024年政府工作报告提出,深化大数据、人工智能等研发应用,开展“人工智能+”行动,打造具有国际竞争力的数字产业集群。随着各种大模型、生成式AI应用层出不穷,人工智能作为引领未来的战略性技术,成为新一轮科技革命和产业变革的核心驱动力量,被认为是加快形成新质生产力的重要引擎。

正因如此,社会各行业对算力需求的增长呈现爆发态势。人工智能发展所需要算力、数据、模型等都需要以云为关键载体,云计算作为基础资源和核心平台的作用日益突显。为了迎合最新发展趋势,抢抓先机,在2024智算云生态大会上天翼云宣布全面升级产品及生态矩阵,打造“算力·平台·数据·模型·应用”五位一体的智算云能力体系。

加码智算基础设施建设,超前布局智算云

从算力资源层面来看,这是天翼云的传统强项。在传统云时代,天翼云就在全国范围内构建了“2+4+31+X”的资源池,率先实现了全国一省一池的云资源布局,织就全国算力“一张网”,构建了“中心-省-边缘-端”的四级算力布局体系。

而在升级之后的智算云体系中,据中国电信董事长柯瑞文介绍,天翼云精心规划并构建了覆盖全国的“2+3+7+X”公共智能计算云池布局,重点在京津冀与长三角两大区域打造出具备万卡级别的智能计算集群,以此确保算力规模持续保持业界领先地位。在智能计算网络的建设上,天翼云成功打造了具备400G高速传输能力的弹性无损智能计算广域网络,大幅降低了算力池间的平均时延至9.7毫秒,同时无损网络的总体容量也达到了600T。

中国电信董事长柯瑞文

智算云体系三大智算平台是重中之重

平台能力的打造可以说是此次智算云体系升级的重中之重。天翼云全面升级三大智算平台,一是算力分发网络平台“息壤”升级;二是一体化计算加速平台“云骁”升级;三是一站式智算服务平台“慧聚”升级。

将这三大平台拆解来看,分别对应解决的是当前AI时代亟需的算力调度、加速和应用问题。

“息壤”加快形成全国一体化算力体系

首先,我国数据中心大多分布在东部地区,由于土地、能源等资源日趋紧张,在东部大规模发展数据中心难以为继。而我国西部地区资源充裕,特别是可再生能源丰富,具备发展数据中心、承接东部算力需求的潜力。但是有了各地分布的算力资源池仅是第一步,想要破解算力资源利用率低,算力分布不均衡、供需不匹配的问题,最好的解决办法就是能让算力像蓄水池里的水一样,哪里需要就让它流向哪里,需要多少就流出多少。

因而“息壤”平台解决的问题就是可以实现跨域、跨服务商异构算力的统一调度管理、并网交易,加快形成全国一体化算力体系。“息壤”异构算力调度核心技术,在供给侧,研发算力插件实现异构算力接入标准化,研发算力网关支持社会闲散算力云化纳管、安全接入。在需求侧,研发算数协同,实现算随数动、数随算动;建立算力度量体系,使得异构算力可统一衡量。基于此,“息壤”收到算力需求后,可根据实时感知的算网状态进行资源编排和调度,提供算力最优解。

在生态合作方面,算力分发网络平台“息壤”可通过算力伙伴共赢计划引入优质第三方算力,提供一站式通智超边算力服务,打造全国算力一张网。目前,“息壤”除提供公共的天翼云自营算力服务平台,还支持为地方政府提供私有化部署的区域算力互联互通平台,已在深圳、贵州、苏州等地商用落地。

“云骁”一体化计算加速让智算更快更稳

其次,当算力资源如水一样涌入之后,还要能确保这些算力资源能够被充分调用,物尽其用。一体化计算加速平台“云骁”,具备超大规模集群管理、运营和算力加速能力,集“异构计算+高速存储+无损网络+算力加速+高效运营”于一体。“云骁”的创新在于其具备了万卡规模算力集群调度能力,并可实现多层级加速,不仅大幅提升了算效,同时还可以为客户提供更优质的计算体验。

“云骁”具有性能观测、性能优化、便捷开通三大核心功能,可确保系统的稳定性及计算效率。在技术上,“云骁”针对国产GPU进行优化,大幅提升国产智算性能。在存储领域,“云骁”拥有行业领先的20GB/s单客户端带宽文件存储。在网络领域,“云骁”创新研发了流体-重力算法,提升了集合通信的可靠性;并提供了行业领先的RoCE多租方案。在超算领域,“云骁”还配置了4T大内存机型,可满足自动驾驶、智能座舱芯片EDA上云等高端计算需求,可作为国内汽车超算云,引领汽车行业计算领域。同时“云骁”还为超算提供了低成本Lite-RoCE网络,显著提升了超算业务性能。

在大模型成为行业焦点的背后,其实质是算力之间的激烈竞争。不论是国内大模型的迅速崛起,还是各行各业智能化转型的加速,都离不开强大的算力作为支撑。而“云骁”不仅象征着国内云计算和人工智能领域的尖端技术,更体现了中国电信天翼云对未来智能计算发展趋势的深刻理解和前瞻布局。

“慧聚”为大模型训练推理提供全栈工具链

再次,当算力被调度并被充分发激发效能之后,最终要成为直接驱动应用的养料为企业的数字化业务转型发挥作用。天翼云一站式智算平台“慧聚”,是为大模型开发者提供大模型生产、大模型部署全链路工具的云平台,可提供全流程的一站式大模型智算服务。“慧聚”平台可以助力用户更加方便、快捷地获取使用数据、算法框架、硬件,为用户提供从数据准备、到模型开发、训练、部署的全生命周期服务。

为降低用户使用大模型的技术门槛,“慧聚”平台可以提供模型调优功能,只需点击3次按钮,即可完成大模型训练,训练完的模型会自动保存到模型管理,选择指定的模型版本便可进行快速部署,大幅降低了大模型生产门槛;对于高阶开发者,平台可提供在线VSCode编码工具,在线直接运行、调试代码,并提交训练任务到平台纳管的集群机器上运行,大幅提升大模型生产效率。

“慧聚”平台有三大核心竞争力。第一,数据纳管与共享,天翼云一站式智算平台“慧聚”,支持天翼云云存储、阿里云存储、腾讯云存储等外部存储的数据纳管与接入。通过导入口令密钥,可快速便捷地实现不同用户间数据共享,实现多云实时数据标注与更新,提升协同开发效率;第二,“慧聚”平台预置了近20款国内外主流大模型,包括开源/闭源大模型、合作生态厂商大模型、政务行业大模型,例如Llama2、Qwen、上海人工智能实验室的书生·浦语;第三,“慧聚”平台支持异构算力,同一个大模型用户可无感知、无差别进行训练和推理操作。

“慧聚”为大模型训练推理提供全栈工具链。尤其值得一提的是其在国产化能力方面,具备了自研AI框架、自研加速算子库及断点续训能力,解决国产化算力稳定性问题。

天翼云科技有限公司董事长、总经理胡志强表示,基于“息壤”“云骁”“慧聚”的平台化能力,天翼云正式发布两项合作计划:一是算力伙伴共赢计划,广泛招募算力合作伙伴,通过“息壤”平台统一调度,共拓广阔的算力市场;二是模型伙伴繁荣计划,打造大模型生态社区,促进AI应用落地。天翼云通过携手产业链合作伙伴,共铸算力、模型两大生态体系,共同为用户提供“算力·平台·数据·模型·应用”的五位一体服务。

天翼云科技有限公司董事长、总经理胡志强

如今,天翼云的国云框架已从基本成型到全面成型,“息壤”“云骁”“慧聚”三大平台的建设标志着天翼云作为国家云已经越过向智能云发展的拐点。天翼云正以全新智算云布局,加快构建以科技创新为驱动的新质生产力,为数字经济发展与数字中国建设注入澎湃动能。