文章插图
EFLOPS服务器架构传统服务器架构的瓶颈主要来自内部PCIe Fabric树形互连 。首先,传统的数据中心服务器通常只配备一个网络接口(独立网卡或者Bond网卡),当该服务器配备多个加速部件(比如GPU)并通过网络接口并发传输数据时,就会面临很大的流量汇聚,使其成为系统的瓶颈 。而这种同步式的网络访问,在分布式AI训练任务中非常常见 。AI训练的数据集一般被划分为多个批次,每个批次的数据处理完成之后,所有参与计算的NPU加速器都要进行梯度的同步 。跨服务器的NPU梯度同步操作都要通过网络接口进行通信 。这种周期性的同步式网络接口访问,势必导致网络接口上的拥塞 。类似的端口拥塞还会发生在PCIe树形拓扑的跟节点处 。分布式AI训练业务在每个批次的数据处理完成之后,会同步载入下一批次数据,导致内存的并发访问 。
其次,PCIe Switch端口上的拥塞可能导致整体通信效率的降低 。当NPU1和NPU3同时向NPU2发送数据时,将会在与NPU2直接相连的PCIe Switch端口上形成拥塞 。由于NPU1和NPU3到NPU2的通信距离不同,导致二者之间具有显著的带宽差异 。而AI训练任务的梯度AllReduce是一个全局性的同步操作,其完成时间往往受限于最慢的链路,所以这种链路带宽的不公平性也会导致系统性能的下降 。
最后,出于种种原因,PCIe交换芯片往往只会实现一个虚拟通道,导致QoS能力缺失,这就使得服务器内各种流量没有隔离能力,形成带宽的无序争抢 。
EFLOP服务器架构重点解决上述互连问题,服务器配备了与加速器(NPU)等量的网卡(NIC),并将NPU和NIC进行绑定配对,每一对绑定的NPU和NIC处于同一PCIe Switch之下,约束NPU的网络通信只能经由自己绑定的NIC 。这样,NPU的网络通信流量全部被局限在PCIe Switch之内,避免了网络接口上的拥塞 。针对PCIe Switch引入的拥塞问题,在PCIe流量较大的情况下,禁用NPU之间进行跨PCIe Switch通信,使其通过网络接口进行数据交换,利用网络协议栈的流量控制机制来降低系统的拥塞程度 。值得强调的是,网络化服务器架构是一个开放的架构,可为各种加速器提供高速互连,对于自带直连总线(如英伟达的 NVLink)的加速器同样兼容,利用其直连总线实现更高带宽通信 。
EFLOPS系统互连架构
系统互连架构数据中心大多采用Clos拓扑,提供了高对剖带宽、可扩展的基础通信能力,但由于路径选择的哈希算法总是存在碰撞的可能,使得网络中的拥塞无法避免 。相比传统仅优化拥塞控制算法的思路,EFLOPS从更上层架构进行网络流量管理,以彻底解决网络的拥塞问题 。
配合EFLOPS多网卡服务器结构,阿里巴巴工程师们出了BiGraph扁平化拓扑,分为上下两组,每组的交换机与另一组交换机全互连,同组交换机之间的数据交换需要另一组交换机转发,这样每一个交换机都扮演了Clos网络中的Spine和Leaf两个角色,最大跳步数仅为3,BiGraph拓扑具有如下两个重要的特性 。
1.它在两层交换机之间提供了丰富的物理链路资源 。在N个计算服务器的系统中,两层交换机之间至少存在着N/2个物理链路可供使用 。这意味着我们有机会将 Halving-Doubling AllReduce算法的所有连接一一映射到可用的物理链路上,避免它们之间的链路争用,以彻底解决网络拥塞问题 。
2.接入不同层次的任意两个计算服务器之间的最短路径具有唯一性 。工程师可以充分利用这一特性,在通信库甚至更高层次进行服务器间通信模式的管理 。比如,在建立连接的时候,选择合适源和目的服务器,来控制网络上的路径选择 。
以上关于本文的内容,仅作参考!温馨提示:如遇健康、疾病相关的问题,请您及时就医或请专业人士给予相关指导!
「四川龙网」www.sichuanlong.com小编还为您精选了以下内容,希望对您有所帮助:- 阿里巴巴国际站支付方式 阿里云支付接口申请
- 广东高考录取通知书查询入口 ems快递单号查询号码查询
- 《召唤神龙》小游戏入口 《召唤神龙》快速过关方法
- 拼多多9.9买手机在哪里入口在哪里 拼多多9.9秒杀手机怎么抢
- 河北高考成绩查询入口已开通 河北高考成绩查询
- 2021年西藏高考成绩查询入口 高考成绩查询
- 2021年河南高考成绩查询系统入口 河南高考成绩查询
- 学信网登录官网入口 学信网登录入口官网
- 95598电费户号查询入口 网上交电费怎么交
- 快手一分钱肯德基入口在哪里 快手一分钱肯德基怎么兑换