Re-ranking Halving-Doubling算法示意图
通信库软件是发挥BiGraph拓扑优势的关键,阿里巴巴自研了ACCL(Alibaba Collective Communication Library)集合通信库,首先它在物理网络中构建出BiGraph虚拟拓扑,然后基于该虚拟结构,实现无拥塞集合通信算法 。无拥塞集合通信算法是阿里巴巴在标准Halving-Doubling算法的基础上,提出的一套新的Re-ranking Halving-Doubling算法,实现了通信连接与BiGraph拓扑的完美映射,从根本上避免选路冲突 。
相比最流行的Ring AllReduce算法,EFLOPS的算法更利于大规模性能扩展 。Ring AllReduce非常适合传统单网卡服务器架构,每一步需要传输的数据量少而且采用单向环式的网络传输,但需要O(N)步执行,延迟随系统规模扩大而线性增加 。Halving-Doubling算法则是通过递增和二分的方式快速地实现数据传输,仅需要O(logN)步,但每一步要传输的数据量比 Ring AllReduce更大,这一特征恰好与EFLOPS的互连网络能力适配 。
Re-ranking Halving-Doubling算法的核心是根据每个进程的物理位置,重新排列该进程对应的排名,结合节点之间的同步策略,使得任何时刻任何点到点的数据传输都能独占一条物理链路,从而有效地避免了网络拥塞,理论上能够达到线速的传输 。以8台服务器,每台服务器包含4个加速器的系统为例,对该算法进行说明,其中方形表示交换机,圆圈表示加速器,圆圈里的数字表示重新排列后新的排名 。连线代表交换机之间的物理连接,不同颜色代表不同步骤下使用的路径 。按照重新排列后,可以看到算法的任何一个步骤,同一个主机的四个加速器走的都是不同的直连链路,这样保证了数据经过的路径最短,且加速器间的数据传输路径没有冲突 。
通信性能对比图
EFLOPS AI集群性能只要在多机多卡环境,不需要太大的规模,EFLOPS集群架构就可以发挥明显的性能优势 。在一个64张GPU卡(NVDIA V100 32G 显存)的小规模集群中,AllReduce集合通信性能测试表明,采用不同的AllReduce算法,EFLOPS集群的硬件设计可以将通信效率提升2.3~11.3倍 。EFLOPS算法架构协同算法可以将通信效率进一步提升1.4~7.3倍 。随着系统规模的增长,网络拥塞概率的增加,EFLOPS AI集群的通信性能优势更明显 。
在该64 GPU卡测试场景中,拍立淘百万分类 大模型的端到端性能提升了2.2倍 。对自然语言处理领域广泛应用的BERT预训练模型进行评测在EFLOPS集群中,BERT的通信开销得到了大幅降低,仅使用EFLOPS硬件即可获得2倍通信性能的提升,叠加ACCL通信库支持,整体性能提升了2倍,通信性能提升了4倍 。
以上关于本文的内容,仅作参考!温馨提示:如遇健康、疾病相关的问题,请您及时就医或请专业人士给予相关指导!
「四川龙网」www.sichuanlong.com小编还为您精选了以下内容,希望对您有所帮助:- 阿里巴巴国际站支付方式 阿里云支付接口申请
- 广东高考录取通知书查询入口 ems快递单号查询号码查询
- 《召唤神龙》小游戏入口 《召唤神龙》快速过关方法
- 拼多多9.9买手机在哪里入口在哪里 拼多多9.9秒杀手机怎么抢
- 河北高考成绩查询入口已开通 河北高考成绩查询
- 2021年西藏高考成绩查询入口 高考成绩查询
- 2021年河南高考成绩查询系统入口 河南高考成绩查询
- 学信网登录官网入口 学信网登录入口官网
- 95598电费户号查询入口 网上交电费怎么交
- 快手一分钱肯德基入口在哪里 快手一分钱肯德基怎么兑换