解密MCP-CPU “三级CPU保护”技术

2015-11-16 14:00:00 来源:商业电讯 华资实业20%大肉分享

    北京2015-11-16(商业电讯)--随着数据流量的快速增长,推动交换机虚拟化技术的快速普及、交换机端口密度的提升和成本的下降,常见的以太网网络组网架构也随着逐步发生变化,其中最明显的就是大家非常熟悉的三层物理组网架构逐步转变为二层扁平化架构。由于此模式下终端网关多直接部署在核心交换机上,虽然带来网络架构弹性强、运行效率高等特点,但同时也引入了核心交换机设备负载重,风险高等弊端,比如常见的各类攻击报文、异常报文等等全面涌入核心交换机CPU,造成CPU负载重,日常运维反应慢,体验差,甚至严重出现CPU拥塞,造成业务中断等风险出现。

    为了适应业务发展新需求,进一步优化和提升扁平化组网架构应用价值,迈普重新基于原交换机上开发的多种CPU保护功能上进行优化和提升,按照“管道化”思路重新进行功能整合,形成迈普CPU保护V2.0技术:MCP-CPU技术(Multilevel channel protection CPU)。

    正式进行MCP-CPU技术讲解前,先回顾一下三平面分离和CPU保护技术。

近几年随着高端交换机所承载业务量的急剧上升,对设备的稳定性要求越来越高,主流厂商在高端交换机上多采取了分布式多平面架构设计;迈普高端交换机同样采用了类似技术:三平面分布管理体系(管理平面、控制平面、数据平面)。如图1

    (图1)

    控制平面:简单理解就是主控卡的工作范围,主要包括路由计算、用户命令处理、维持协议运行等,比如响应Telnet、OSPF、BGP协议计算等; 数据平面:简单理解就是交换机的数据转发功能,由ASIC交换芯片和转发子系统组成,主要完成报文的快速转发; 管理平面(OAM平面):简单理解就是交换机主控卡与业务卡之间的独立硬件管理系统,内容包括系统启动下载、配置及管理数据同步和备份;

    各平面解耦分离设计后,产品稳定性获得了很大提升,从业务应用角度看,控制平面CPU的运行状态是否稳定会直接影响整机甚至整个网络是否稳定运行,在MCP-CPU技术之前,传统上针对该类风险通常是通过限制整体上CPU报文的数量和速率方式来达到CPU保护的目的;但是随着目前多业务、精细化业务管理需求越来越被重视,原来的简单粗暴控制上CPU报文的技术已经无法满足业务特性需求。迈普顺势推出了CPU保护V2.0技术:MCP-CPU。

如下图2,参照一个标准的数据报文进入交换机的处理流程来看下系统是如何进行CPU保护的。 (图2) 各类业务报文通过业务板卡端口进入交换机,在各业务板卡上先按照报文协议类型进行第一次分类,对于符合某些报文特征的报文先交由ASIC限速硬件芯片处理,按照用户配置的阀值进行限速处理,比如arp限速、广播风暴抑制等。(CPU第一级保护:协议限速器);

    如果报文是普通数据报文,直接转交数据平面的ASIC数据转发芯片进行快速转发; 如果是协议报文,则需要通过管理平面的IPU通道上送至控制平面交由CPU处理;

    在通过管理平面的线卡端IPU通道出口时,基于硬件队列技术实现的CPU Pakcet功能对报文进行第二次分类,按照报文优先级进入8个不同队列;一般来讲,协议报文优先级高于普通报文,且在各种协议报文之间再次区分优先级,保证实时性要求高的基础协议(如STP协议)优先得到CPU资源。(CPU第二级保护:CPU Packet)

    对于框式设备,由于同时会有很多业务板卡的处理报文会同时进入控制平面的CPU,所以必须在控制平面的CPU入口进行第三级保护。在CPU入口处通过CPU Guard功能对报文限速分类(9个不同队列)。保障高优先级报文优先处理,确保各种网络协议的正常运行。(CPU第三级保护:CPU Guard)

    将CPU保护功能按照报文处理流程的前后顺序进行“管道化”设计,我们称之为MCP-CPU技术(Multilevel channel protection CPU)。 应用效果分析对比: 对比项目 MCP-CPU保护 单点CPU保护 防护深度 三级 业务板卡级 背板总线级 CPU入口级 1级或者2级 业务板块级或 CPU入口级 技术成熟度 成熟 成熟 支持场景 框式交换机 盒式交换机 盒式交换机 防护效果 CPU利用率低并保持平滑、线性工作 CPU利用率波动性强,瞬时会出现超负载现象 应用体验 设备运行稳定; 维护操作命令反馈及时; 抗网络攻击能力强 有一定抗攻击能力,极端情况下易出现操作命令无反馈、数据转发异常 由于迈普“神盾”S12800交换机除了定位于数据中心应用部署外,还适用于大型园区网、局域网部署,所以在产品功能设计上天然继承了迈普MCP-CPU技术。

    考虑到网络真实运行的复杂性,我们做了一个简单对比实验:

    测试环境:通过测试仪,模拟大型园区网常见的报文类型,包含:ARP攻击、广播风暴及OSPF、STP等协议报文类型测试流量共计10Gbps;

    未启用MCP-CPU保护:

    60s后,S12800 主控CPU上升到90%以上,分别在Console、SSH及Telnet方式下登录设备,命令输出平滑,但反馈信息滞后1.5S;协议计算OSPF、STP完成时间延长50%,控制平面整体处于高负载临界状态。

    开启MCP-CPU保护:

    S12800 CPU稳定工作在45%左右,分别在Console、SSH及Telnet方式下登录设备,命令输出平滑、反馈信息连续,无任何停滞感;整机工作状态良好,普通数据转发正常。

快来分享:
评论 已有 0 条评论