3月19-20日,中国机电产品进出口商会、新加坡中华总商会主办的2024年国际产业合作大会(新加坡)暨中国机电产品品牌展览会在新加坡召开。中国电子党组成员、副总经理,中国电子数据产业有限公司党委书记、董事长陆志鹏作题为《坚持体系创新,发展绿色数智——一种基于数据元件构建的数据算力基础设施》的发言。
陆志鹏表示,当前生成式人工智能的发展将面临着绿色低碳的巨大挑战,根据国际能源署(IEA)估算,由于生成式人工智能快速发展等因素影响,2026年全球数据中心耗电量最多将达到2022年的2.3倍,达到620-1050太瓦时。在传统算力能力已接近摩尔定律极限和数据量以指数级持续增长的双重压力下,软硬结合的体系优化是应对绿色数智发展挑战的最优解决路径。
中国电子探索构建基于数据元件的数据算力基础设施,设计形成了由数据金库、数据要素加工交易中心、数据要素互联网等组成的基础设施总体架构。数据元件是通过对数据脱敏处理后,根据需要由若干相关字段形成的数据集,或由数据的关联字段通过建模形成的数据特征,具有安全属性、价值属性和质量属性,可有效提升数据价值密度。
基于数据元件构建的数据算力基础设施具有提高超大规模数据处理能力、提高大模型的应用性能、超大规模数据处理能耗最低的特征。在提高超大规模数据处理能力方面,作为数据算力基础设施核心之一的数据要素加工交易中心,是集软、硬件于一体的大规模、全流程、自动化的数据元件加工生产控制流水线,具备超大规模数据的处理能力,能够有效提高大规模数据的处理效率。
他表示,在提高大模型的应用性能方面,通过对数据清洗治理形成样本数据,利用样本数据进行调试,训练好的元件模型能够加载全量数据生成数据元件结果,大大提高了大模型的使用性能,同时降低了大模型发展对算力的消耗。以11.8万字的文档为例,通过加工成元件后,能够得到4.07万Token的预训练元件,相比其他表征方式同比降低70%,再利用同样的文档加工出3000余个微调QA元件,对领域大模型进行训练、微调后,大模型回答流畅程度、准确定、专业性均有大幅提升,有效回应了绿色数智的发展要求,切实以数字化赋能绿色化,共塑低碳未来。
南方+记者 郜小平
【作者】 郜小平
【来源】 南方报业传媒集团南方+客户端