腾讯云发布创新大数据计算引擎,性能飙升6倍

发表时间: 2024-07-03 21:05

在刚过去的618购物节,某大型电商企业的订单量在几小时内激增至平时的几十倍。如果该企业的大数据计算引擎无法及时处理这些数据,订单处理、库存管理和客户服务将面临严重滞后,导致客户体验下降和销售机会流失,甚至损害品牌声誉。这一场景,展示了高性能大数据计算引擎对企业运营的重要性。

其实,上面例子呈现的情况具有普遍性。在数字化浪潮中,企业对大数据处理和分析的需求愈发迫切。高效处理大数据不仅关乎业务决策的及时性和准确性,还影响企业的市场竞争力。然而,传统计算引擎在面对庞大数据量时,常常显现出性能瓶颈、资源浪费和兼容性不足等问题。

近期,腾讯云推出了全新的大数据高性能计算引擎Meson,提供了新的解决方案。通过融合向量化计算的软件工程、GPU/FPGA的硬件优化和AI4Data增强技术,腾讯云大数据高性能计算引擎全面提升数据处理性能,满足企业在大数据时代的多样化需求。接下来,我们将探讨大数据计算引擎领域面临的难题,以及腾讯云的探索与实践。

大数据计算引擎,遇到了自己的发展瓶颈

大数据计算引擎自诞生以来,经历了多个技术发展的关键阶段。从最初的Hadoop到现在的湖仓一体化(Lakehouse),每一次技术革新都带来了显著的性能提升和新的应用场景。然而,随着数据量的爆炸性增长和业务需求的多样化,传统计算架构正面临前所未有的挑战。古语有云,“以史为鉴,可以知兴替”。为了搞清楚大数据计算引擎的发展方向,我们有必要先来回顾一下其发展历程。

具体来看,大数据计算引擎经历了三个主要的发展阶段:

大数据计算引擎发展进程 资料来源:腾讯云

Hadoop时代,大数据处理的起点

大数据计算引擎的发展始于2006年Hadoop的诞生,Hadoop引入了MapReduce编程模型,通过分布式计算框架和HDFS(Hadoop分布式文件系统)实现了对海量数据的存储和处理。Hadoop解决了当时数据量迅速增长的问题,为大数据处理奠定了基础。然而,Hadoop主要适用于批处理任务,其高延迟和复杂的编程模型使得它难以满足实时数据处理的需求。

Spark时代,内存计算的崛起

2014年,Apache Spark的推出标志着大数据计算引擎进入了一个新的阶段。Spark通过在内存中进行数据处理,大大提高了计算速度。它不仅支持批处理,还支持实时流处理、机器学习和图计算等多种计算模型,极大地提升了处理性能和灵活性。然而,随着数据规模的持续增长和应用场景的复杂化,Spark也开始面临性能瓶颈和资源利用效率低的问题。

湖仓一体化时代,统一存储与计算的融合

近年来,湖仓一体化(Lakehouse)概念应运而生。Lakehouse结合了数据湖和数据仓库的优点,既能存储结构化和非结构化数据,又能提供高效的数据分析能力。通过统一的存储层和计算引擎,Lakehouse架构简化了数据管理流程,提升了数据处理性能。然而,随着AI应用尤其是AI大模型的迅猛发展,传统的Lakehouse架构在应对实时性和复杂计算任务方面仍面临巨大挑战。

需要指出的是,大数据计算引擎的目的,是为了更好的满足数据处理的需求。因此,数据环境的变化,会很大程度上影响大数据计算引擎的演进方向。

目前,数据环境已经发生了多方面的显著变化。随着互联网、移动互联网、物联网、车联网、工业互联网等领域的发展,数据量呈现爆炸性增长。IDC预计,全球数据量将从2020年的59ZB增长到2025年的175ZB,年复合增长率达到27%。企业需要处理的数据量已经达到PB级甚至EB级,而且,企业不仅需要处理结构化数据,还需要处理大量的非结构化数据,如文本、图片、视频等。在快速变化的市场环境中,企业需要实时获取和处理数据,以便做出快速响应。

更进一步,AI技术,尤其是大模型的应用,正处于大爆发的前夜。然而,这些AI应用对底层大数据基础设施提出了全新的、更高的要求,需要更强的计算能力、更快的处理速度和更高的资源利用效率。

面对全新的数据环境,当前大数据计算引擎的能力显然有点跟不上了。具体来看,传统大数据计算引擎普遍存在以下一些短板:

性能瓶颈,难以快速处理EB级数据

随着数据量达到PB级甚至EB级,传统的计算引擎在处理海量数据时难以保持高效的性能。计算任务经常因为数据量过大而导致处理速度缓慢,延迟增加,严重影响业务决策的及时性和准确性。

计算资源利用率不高,导致资源浪费

计算资源利用率不高,是传统计算引擎的另一个突出问题。由于计算引擎无法高效调度和管理资源,导致大量计算资源闲置或使用不当,进而增加了运营成本。企业需要投入更多的硬件和能源来维持计算任务的运行,造成资源的浪费和成本的上升。

兼容性差,限制了企业在大数据处理上的灵活性

现有计算引擎之间的兼容性差,增加了系统集成的复杂性。不同的计算引擎通常需要独立的部署和管理,数据在不同引擎之间的迁移和整合成本高,流程繁琐,难以实现统一管理。这种兼容性问题,限制了企业在大数据处理上的灵活性和效率。

难以兼顾实时处理和批处理需求

大多数计算引擎,在实时处理和批处理之间难以兼顾。传统的计算引擎主要侧重于批处理任务,而现代企业越来越需要实时数据处理能力,以便在瞬息万变的市场环境中做出快速响应。实时数据处理的缺失,导致企业难以充分利用数据的即时价值,影响业务决策和客户体验。

在智能时代,数据已经成为企业的核心资产,只有具备高效处理海量数据、实时分析多样化数据并支持复杂AI应用的计算引擎,才能帮助企业在激烈的市场竞争中脱颖而出。传统引擎在性能、资源利用、兼容性和实时处理能力方面的局限性,严重制约了企业的数据处理和分析效率。为了应对这些挑战并充分利用数据的价值,业界亟需一款全新的大数据计算引擎。

腾讯云开出的药方

为了解决当前大数据计算引擎存在的问题,腾讯云发布了大数据高性能计算引擎Meson。这个引擎的核心特点在于三大方面:融合向量化计算的软件工程、GPU/FPGA的硬件优化,以及基于软硬加速实现AI4Data的未来架构。

向量化计算的软件工程

向量化计算能够同时处理多个数据点,大幅提高计算效率。传统标量计算一次只能处理一个数据点,而向量化计算利用SIMD(Single Instruction, Multiple Data)指令集,使一条指令可同时操作多个数据点,从而提升处理速度并减少延迟。此外,向量化计算兼容现有开源生态系统,降低迁移成本,企业可以在现有系统架构基础上引入高效计算技术。

腾讯云在这一领域的技术优势,体现在其C++向量化计算引擎和JIT编译技术。腾讯云的C++向量化计算引擎全面兼容Spark生态,显著提升计算性能,相较开源Spark引擎,数据处理速度有明显提高。JIT编译技术通过即时编译将代码翻译为机器码,减少解释步骤,提高计算速度和效率。

资料来源:腾讯云

GPU/FPGA的硬件优化

随着数据量的不断增加和计算任务的复杂化,单纯依赖CPU的计算模式已经无法满足需求。GPU和FPGA的并行计算能力,能够大幅提升数据处理能力。GPU擅长处理大量并行计算任务,而FPGA则可以根据特定需求进行优化,处理复杂计算任务。此外,硬件优化不仅能够提高性能,还能在一定程度上降低能耗。相比传统的CPU计算,GPU和FPGA在执行特定任务时能耗更低,效率更高,从而实现更高效的资源利用。

腾讯云在硬件优化方面的技术产品,主要包括GPU加速的Elasticsearch服务和FPGA加速技术。腾讯云的Elasticsearch服务,支持GPU加速。通过结合腾讯自研的紫霄GPU,显著提升了向量生成和向量检索的效率,使得腾讯云ES在处理大规模、高复杂度的检索任务时表现出色。FPGA加速则利用FPGA的可编程性和并行处理能力,在处理复杂数据分析任务时具有显著优势,提升了整体计算性能。

基于软硬加速实现AI4Data的未来架构

在现代数据处理环境中,AI驱动的优化和智能化管理已成为必然趋势。AI4Data增强技术,通过智能优化、智能预测和智能调度,极大地提升了系统效率。

腾讯云在大数据计算领域的技术产品,包括AI-based Optimizer、智能任务调度系统和负载智能预测功能。AI-based Optimizer通过AI算法优化查询计划,提升查询效率,自动调整执行计划,减少计算开销。智能任务调度系统利用AI技术动态调整资源分配,确保系统高效稳定运行。负载智能预测功能通过实时监测系统负载,优化资源配置,提升整体计算效率。AI算法分析负载数据,预测未来资源需求,提前调整资源,避免系统瓶颈和性能下降。

通过融合向量化计算的软件工程、GPU/FPGA的硬件优化和AI4Data增强技术,腾讯云大数据高性能计算引擎Meson提供了一种高效、智能、灵活的解决方案。这不仅解决了传统计算引擎在性能、资源利用、兼容性和实时处理能力方面的局限性,还为优化上层的数据湖、数仓、数据检索分析等应用奠定了坚实的基础。

更强的计算引擎,为数据湖、数仓提供更强大的“心脏”

随着大数据和AI技术的快速发展,企业对数据处理和分析能力的需求不断提升。腾讯云大数据计算引擎Meson凭借其卓越的性能和灵活的架构,在数据湖、检索服务和数据仓库等领域展现了强大的应用潜力。

腾讯云EMR——支持全场景原生Iceberg向量化计算的数据湖产品

在数据湖市场,企业需要高效处理多样化数据源和提升实时数据分析能力,传统计算引擎难以满足这些需求。腾讯云的Elastic MapReduce(EMR)通过全场景原生Iceberg向量化计算和显著的性能提升,解决了这一问题。

腾讯云EMR完全兼容Iceberg表,提供高性能查询能力,使企业能高效处理多样化数据源,支持复杂数据分析任务。向量化计算和优化技术使腾讯云EMR的处理性能提升2.27倍以上,单个SQL查询性能最高可提升至6.2倍,显著提高计算资源利用率。向量化计算通过同时处理多个数据点,大幅提升计算效率,显著降低延迟。

腾讯云ES——全球首个支持GPU加速的检索服务

在检索分析领域,随着AI和大数据技术的发展,企业对高效向量检索和实时低延迟的需求日益增加。向量检索技术在图像识别、自然语言处理等领域有广泛应用,企业需要高效的向量检索能力来处理海量数据,支持复杂的查询和分析。腾讯云Elasticsearch(ES)通过GPU加速技术和卓越的实时性能,提供了强大的检索分析解决方案。

据悉,腾讯云ES是全球首个支持GPU加速的ES服务,通过结合腾讯自研的紫霄GPU,腾讯云ES显著提高了向量生成和向量检索的效率。紫霄GPU在常见中小模型上的性能相比NVIDIA T4提升超过100%,相对于NVIDIA A10有20%以上的性能优势。结合BM25评分算法和向量检索优化,腾讯云ES在高并发场景下实现了毫秒级响应,显著提升了检索性能和用户体验。

接下来,我们将腾讯云ES与某知名开源向量检索引擎进行性能对比。通过详细的性能测试,基于公共数据集检索不同维度的数据,腾讯云ES在召回率达到99%的情况下,获取最相似的Top10文档的QPS数据显著优于该开源向量检索引擎。在高维和低维向量检索场景中,腾讯云ES的性能也要比该开源向量检索引擎领先接近10倍。正是优异的性能表现,让腾讯云ES获得广泛的应用。

腾讯云ES与微信的合作,便是一个典型的成功案例,微信读书平台在采用腾讯云ES方案后,成功解决了数据规模大(整体数据超10亿级向量规模)、稳定性要求高(稳定性要求5个9以上)、查询性能要求高(数亿量级数据全链路多路召回需控制在100ms以内)、运维成本高和开发成本高等一系列挑战,成本从原来的纯内存400台64G机器下降到30台,还大幅提升了检索速度和用户体验。

腾讯云TCHouse——深度耦合软硬一体技术的云数据仓库

在数据仓库领域,企业需要高效的数据分析和灵活的数据处理能力。腾讯云TCHouse支持离线和实时数据处理,满足企业在多种业务场景下的需求,实现批处理任务和实时分析任务在同一平台上运行,显著提高系统的灵活性和响应速度。

TCHouse采用Push执行模式的单机计算引擎,结合LLVM JIT编译框架和向量化技术,实现高效数据处理。通过软硬结合技术,TCHouse在处理海量数据时提供快速、精准的数据查询和分析能力,帮助企业在激烈的市场竞争中保持领先地位。

总的来说,腾讯云大数据计算引擎Meson在数据湖、检索服务和数据仓库等领域展现了强大的应用潜力。这不仅解决了传统计算引擎在性能、资源利用、兼容性和实时处理能力方面的局限性,还为未来的智能化应用奠定了坚实的基础,助力企业在智能时代实现持续创新和发展。

大数据计算引擎的进化,永不止步

大数据高性能计算引擎,正处于一个前所未有的快速进化阶段。面对数据量爆炸性增长和复杂计算需求的挑战,未来的大数据计算引擎将更深度地融合AI技术、软硬结合优化等策略,并在大数据产业中发挥越来越重要的作用。

随着AI技术的飞速发展,更多AI技术将被引入到高性能计算引擎中,进一步实现智能优化和调度。未来,AI将不仅限于优化现有的计算流程,还将通过AI大模型技术,进一步提升系统的自适应性,使大数据计算引擎更加智能化。

随着硬件技术的不断进步,GPU和FPGA等加速器将更广泛地应用于大数据计算中。未来,软硬结合的优化策略将进一步发展,硬件加速器将更加智能化和通用化,与软件层面的优化技术深度融合,提供更加灵活和高效的计算解决方案。

正是技术的不断融合发展,让大数据计算引擎的能力不断提升。

如果将数据比作“血液”,那大数据计算引擎就像是一台越来越强劲的“心脏”,为数据的智能应用提供源源不断的动力,驱动企业数智化升级,乃至整个数字经济和新质生产力的发展。

具体来看,不断进化的大数据计算引擎,将在以下几个方面发挥重要价值:

推动AI应用,尤其是AI大模型的应用落地。

AI大模型的训练和推理需要处理海量数据和复杂计算,这对底层计算引擎的性能提出了极高的要求。高性能计算引擎通过先进的向量化计算、GPU/FPGA加速以及智能调度技术,为AI大模型的应用提供了强大支持。这种高效计算能力不仅满足了AI大模型训练需求,更加速了其在金融、医疗、零售等行业的实际应用,推动了AI技术的广泛落地和商业化进程。

促进企业数智化转型

随着数据成为企业核心资产,如何高效处理和分析海量数据,成为提升企业竞争力的关键。高性能计算引擎通过提供高效的数据处理和实时分析能力,帮助企业快速获取数据洞察,优化业务决策。例如,在供应链管理中,企业可以利用高性能计算引擎实时监控和分析物流数据,优化库存管理和配送路径,提高运营效率。在客户关系管理中,通过对客户数据的实时分析,企业可以实现精准营销和个性化服务,提升客户满意度和忠诚度。

推动新质生产力的发展

高性能计算引擎通过提升计算效率和智能化水平,促进生产力的提升和产业升级。高性能计算引擎可以实现对生产数据的实时监控和分析,帮助企业优化生产流程,降低成本,提高产品质量。例如,在制造业中,通过对设备运行数据的实时分析,可以提前预测和预防设备故障,减少停机时间,提高生产效率。总之,高性能计算引擎通过赋能各行各业,提升生产力水平,推动产业向高附加值、高技术含量方向发展,实现产业升级。

赋能数字经济的建设

数字经济的核心,在于通过数字化技术提升经济效益和社会效率,而高性能计算引擎正是这一过程的基础设施。它提供了强大的计算能力和数据处理能力,使得大规模数据分析、人工智能和物联网应用成为可能。例如,在智慧城市建设中,高性能计算引擎可以实时处理海量的城市数据,优化交通管理、能源使用和公共安全,提高城市运营效率。此外,在金融科技领域,它支持高频交易、风险管理和智能投顾,提升金融服务的质量和效率。

总之,高性能计算引擎的不断进化和应用推广,将为大数据产业带来深远影响,推动AI应用落地,促进企业数智化转型,提升新质生产力,助力经济高质量发展。