华为云平台网络流量优化策略探讨

发表时间: 2022-10-12 14:06

主要研究内容

梳理入云网络流量转发路径;分析云平台网络流量安全管控节点位置及功能,降低云内网络传输时延,有力支撑各类上云业务系统安全、高效、稳定运行;研究云平台交换机配置自动下发功能实现方法,减少后续云平台扩容工作量;优化内外网云平台隔离区网络架构,实现全链路全设备冗余以及负载均衡,提升云上业务系统使用体验

现状分析

云平台底层逻辑架构

图1 云平台底层逻辑架构图

华为云Stack采用业界通用OpenStack开源架构和相应组件(如图1),如Nova、Cinder、Neutron等,使用以上组件公用API接口,对接下层虚拟化资源池,纳管各个计算节点、网络节点、管理节点服务器。而用户能够通过Web界面、命令行或API接口配置资源。因此OpenStack提供华为云平台内核、骨干、框架、总线。

结合网络流量路径分析,华为云平台在网络节点服务器上部署Vrouter、BR组件,实现软件SDN功能。可以使用软件SDN定义网络路径,自动建立Vxlan隧道,自动实现Vxlan封装和解封装,避免人为命令行的配置和干预,减少运维量和出错概率,利用云内高速网络通道,最大化实现云内流量路径优化。

网络流量路径上安全节点现状

云平台安全防护由云上安全服务防护体系和云平台硬件安全防护体系两部分组成。其中,基于纯软件实现的安全功能包括:VPC、安全组、网络ACL,基于硬件实现安全功能包括管理防火墙、Edge防火墙。通过规划、分配合理的VPC实现不同业务隔离,通过设置安全组、部署网络ACL和配置Edge防火墙安全策略,为云平台网络访问防护提供支撑和保障。其中, Edge防火墙、安全组、网络ACL功能上有很大重叠,基本都是针对IP包五元组进行策略限制,只是保护粒度不同。

交换机配置自动下发组件现状

当前,华为云平台在大部分网络设备配置时,仍采用人工配置方式(端口描述、透传VLAN、安全加固配置等),耗时耗力且容易出错,增加工作量。目前华为云只支持专线交换机和裸金属交换机配置自动下发,其余如管理节点交换机高阶服务交换机、普通计算节点接入交换机配置全部需手工配置。

隔离区域网络现状

因隔离装置(特定行业要求,内网和外网交互需要隔离装置,且隔离装置需要相应行业入网资质)的特殊性,华为云平台架构里面没有针对隔离设置专门区域和组件。而传统隔离装置无法实现虚拟化,在华为云内网外网交互时,无法实现设备、链路冗余以及业务负载均衡

详细分析

网络流量转发路径

华为云Stack网络流量路径(如图2):

图2 华为云Stack网络流量路径图

  • 云外访问由云平台核心交换机根据策略路由转发至云平台管理墙,防火墙根据访问控制策略来放行或者丢弃报文;
  • 放行的报文从云平台管理墙再回到云平台核心交换机,经由接入交换机到云平台网络计算融合节点;
  • 节点根据EIP与虚拟IP的绑定关系,查找虚拟机所在宿主机地址,再将报文转回到核心交换机;
  • 核心交换机根据网络计算融合节点所加地址信息将报文转发到虚拟机所在宿主机网卡,网卡根据虚拟机绑定的安全组判断报文放行或者丢弃,放行的报文转发至对应的虚拟机;
  • 出方向路径相反,在此不再赘述。

华为云Stack内部组件流量路径(如图3):

图3 华为云Stack内部组件流量路径图

出方向:

  • 流量(如图3)从VM中发出,目的IP为公网IP,源IP是虚拟机的内部真实IP,从计算节点通过tunnel_bearing平面发给ENAT网元节点;
  • ENAT网元节点做一次NAT,将源IP转换为虚拟机的EIP;
  • 流量从ENAT出来,通过核心交换机的等价路由发给BR网元节点,如果有EIP Qos,在BR上做EIP的Qos,再经过核心交换机TOR的Internet VRF到外网。

入方向:

  • 外网Client从核心交换机TOR接入(如图3),再通过业务TOR流量路由到网络节点的BR网元;
  • 流量从BR出来后到核心交换机的TenantVRF,通过等价路由然后到达网络节点ENAT网元;
  • ENAT做一次NAT,目的IP转换为虚拟机的真实IP;
  • 流量从ENAT出来后依次经过业务TOR、核心交换机、业务TOR,到达计算节点,最后发到虚拟机。

分析

  • 云内真实IP不对外呈现,结合 VDC,VPC,用户可以灵活规划自身网络不受全局地址范围影响;
  • Vxlan封装与解封装,通过计算节点自动完成,避免人为干预;
  • 在传统网络(核心交换机上),通过VPN隔离EIP和Vxlan转发平面,相互不受影响;
  • 网络计算融合节点与VM所在的计算节点,在通过核心建立逻辑Vxlan隧道后,后续数据包直接通过TOR交换机转发,大大提高了转发效率。

对比传统Vlxan转发,需要手动配置Vxlan隧道,流量转发以手工配置为准,很容易导致次优路径。而在华为云Stack平台Type1架构中,Vxlan隧道由控制器自动建立(建立机制为业务流量触发),流量在各个组件之间有序转发,自动封装和解封Vxlan报文头。通过以上流量路径分析,云内流量转发既考虑到隔离的安全性,又兼顾到云内转发效率,路径转发方式无需优化。

安全管控节点分析

目前云平台安全防护由云上安全服务防护体系和云平台硬件安全防护体系两部分组成。通过规划、分配合理的VPC实现不同业务隔离,通过设置安全组、部署网络ACL和配置Edge防火墙安全策略,为云平台网络访问防护提供支撑和保障。

图4 华为云Stack平台安全管控策略图

现华为云Stack平台安全管控策略(如图4)有管理防火墙网络ACL安全组,三道防线实现策略管控。管理防火墙旁观核心交换机,虚拟防火墙针对子网实现防护,安全组针对ECS实现防护。三道防线底层核心机理一致,基本都是针对IP数据包五元组实施数据过滤,实质作用有很大的重叠。比如,硬件管理防火墙使用白名单开通针对某一个地址的访问,然后安全组再重复一遍相应策略。这样,运维工作量大,故障排除复杂,且数据转发效率低下。因为每次安全策略的匹配,需要计算资源针对每个数据包逐一匹配验证,增加数据传输时延,等同传统数据中心中前置3道防火墙。因此需要根据业务需求,合理设置安全防护措施。

三道防线对比分析:

1.安全策略实现原理

2.处理时延(同等环境下到出口硬件设备的时延)

3.运维工作量

4.安全防护必要性

结合以上分析研究,管理墙不配置针对特定业务地址的防火墙放行白名单策略,默认放行所有业务流量,只配置黑名单策略。比如,攻击地址的封堵,与其他安全设备联动,实现威胁地址的自动封堵等全局功能。安全组方面,实现全面、细化到点对点的安全策略,把安全组作为传统数据中心防火墙的业务策略开通对待。这样,在节省运维工作量、减少时延情况下,不管从最小化防护粒度还是全方位防护力度都能满足数据中心的安全防护要求

交换机配置自动下发

现有华为云Stack平台网络环境中,服务器一般都有2个存储口,2个业务管理合并部署口,1个BMC口,部分对于网络流量要求较高的场景会将管理和业务接口进一步拆分,导致网络架构庞大,接口线路复杂,网络配置任务繁重。逻辑架构以及相关业务关联配置示意(如图5):

图5 交换机逻辑架构以及相关业务关联配置图

在上图中,服务器BMC口主要接入服务器BMC管理口,实现无操作系统远程服务器关机重启以及系统安装等,业务管理口主要用于管理业务(迁移,集群信息,备份还原等),业务口主要提供用户访问,存储口用于接入后端存储。

通过全量梳理华为云 Stack平台管理组件,发现华为云Stack交换机除专线交换机、裸金属接入交换机网络配置可以实现配置自动下发外,其余交换机需手动配置。专线交换机涉及大量新增Vxlan隧道建立,且此隧道建立依赖云平台中的业务配置,所以使用netconfig协议实现配置自动下发;裸金属交换机原因类似。而其他交换机(BMC、普通计算节点、高阶节点接入交换),考虑现场情况复杂性以及客户业务的多样性(设备厂家、产品、版本多样性),没有相应自动下发配置的组件。

研究分析阿里云配置自动下发流程为:

  • 阿里云首先建立网络设备基线库,通过基线库测试的交换机方可使用在阿里云平台中。阿里云基线库中有锐捷、华为、华三3家厂家对应的产品交换机。
  • 按照阿里官网标准要求填写工勘设计表格,里面有网络设备硬件信息如交换机厂家、型号、版本,网络接线表,路由协议关系,地址规划,机柜部署。完成工勘设计表格后上传平台,平台自动生成阿里云平台要求的文档。
  • 阿里云平台探测纳管底层网络交换机,确保全部交换机的连通性。
  • 通过阿里云OPS1上部署NetDevProxy服务,利用ZTP(Zero Touch Provisioning)功能,通过TFTP下发相应配置到交换机。

针对普通计算节点、高阶服务节点、管理节点接入交换机,华为云与阿里云平台配置自动下发的优劣对比

隔离区网络优化

因行业特殊性,内网外网交互需经过特定行业认证的隔离装置,而此隔离装置不能虚拟化,不支持VRRP,内部无通道负载均衡机制,每台隔离装置只有2个接口上联内网和外网,无法使用LACP端口聚合。所以,在实际使用中,内网云与外网云交互时,会有隔离装置的单点单链路隐患,且无法有效利用华为云高冗余、负载、业务灵活扩展的特性。结合以上各种,规划如下网络架构(如图6):信息网络隔离装置内网侧对接内网路由器,外网侧经过防火墙对接外网路由器;针对部分业务并发量高的特点,可以采用旁挂负载均衡设备的方法来解决,在外网CE路由器上旁挂两台负载均衡设备,并且将隔离装置添加到后端服务器组中,满足业务系统的高并发量需求。

图6 隔离区网络架构图

外网的CE_01、CE_02分别启用VRRP协议,外网前置交换机与防火墙做VRRP配置,与外网前置交换机01、02连接,外网的前置交换机01、02做堆叠配置(内网类似)。从IP层面上实现冗余备份,解决了存在的单点隐患问题,为网络的稳定运行提供保障。防火墙以主备模式串联于外网CE与外网前置交换机之间,提高安全性。隔离设备01-03接前置交换机01,隔离设备04-06接前置交换机02。每侧共3台隔离设备以并行方式运行,通过负载均衡,提高内外网隔离区并发量,以防业务系统并发量过大导致隔离装置内外网数据交换出现拥堵

全路径全设备冗余分析以及业务负载分析:

  • 内网CE设备做VRRP配置;外网前置交换机与防火墙做VRRP配置;
  • 内网、外网前置交换机做堆叠配置。内网的前置交换机01和前置交换机02做堆叠配置,保证其高可靠性,提高性能。外网配置与内网类似;
  • 隔离设备01—03接前置交换机01,隔离设备04—06接前置交换机02。每侧共3台隔离设备以并行方式运行,通过负载均衡,负载均衡通过虚拟地址(此虚拟地址对应6台隔离装置内网外网侧 地址)提高内外网隔离区并发量,以并发业务量过大导致隔离装置内外网数据交换出现拥堵。

外网CE路由器至RDS数据库时延为0.734ms+0.429ms=1.163ms,与传统网络架构1.333ms相比,隔离区域优化后网络时延低于传统网络架构网络时延。以1个周期外网读写内网数据库流量50G,以平均每个包1400字节计算,总时长可减少1.81小时((50G*1024*1024*1024)/1400*0.17ms)。

华为云Stack信息内网外网通过隔离装置交互,使用以上架构在实现全设备全链路冗余,转发时延有效降低,满足业务系统要求。

总结

通过以上各个方面的分析,可以比较细化了解华为云Stack平台中的流量路径,安全防护组件,交换机配置自动下发情况,并针对行业特定的隔离装置实现全路径全链路的冗余和业务负载。