大模型狂奔近两年,Scaling law(规模法则)依然有效,这使得大模型的参数规模将持续增长,从亿级向跃升至万亿级。

在这个过程中,对算力的寻衅也随之而来。
为支撑海量数据的大规模演习,研究职员把大量做事器通过高速网络组成大规模算力集群,共同完成演习任务。

大年夜模型演习的必修课要想快先修路 汽车知识

然而,集群演习会带来额外通信开销。
由于各个节点之间要相互通信,这导致随着集群规模的扩大,通信损耗也随之增加。
有数据显示,部分大模型演习过程中通信占比最大可达50%。

因此,大集群不即是大算力,N个GPU的算力也达不到单个GPU算力的N倍。
而要提高算力集群的利用效率,关键在于提升算力网络的性能。

7月1日,腾讯云副总裁王亚晨向21世纪经济宣布打了一个比方:AI大模型就像是一场F1比赛,GPU是马力强大的F1赛车,算力网络则是比赛赛道。
“现在参加比赛的赛车越来越多,如果还用原来的赛道,那每辆赛车都跑烦懑,以是全体赛道也须要进行升级”。

算力网络迎来新寻衅

当下,大模型对算力集群规模的需求正快速提升。
以OpenAI为例,ChatGPT演习利用了千卡集群,到了GPT4变成万卡集群,而对付尚未发布的GPT5,业界普遍认为可能会是十万卡集群。

算力集群规模的增长,对算力网络也提出更多新需求。
首先,大模型的演习,险些无一例外须要利用高性能的RDMA网络,它许可打算节点之间直接通过GPU进行数据传输。

王亚晨表示,这种数据传输方法可以显著提高吞吐量并降落延迟,从而使打算节点之间的通信更加高效。
同时,这也须要对网络设备持续升级,让交流机、光模块、网卡等端口速率保持在业界最领先的水平,并能灵巧扩展网络规模。

其次,算力网络还要通过优化底层的通信协议来提升网络通信效率。
王亚晨称,AI分布式演习采取的是凑集通信的模式,与传统的通信模式差异较大,不同大模型架构也存在通信模式的差异。
传统的通信模式紧张是一对一、一对多等,AI分布式演习采取凑集通信的模式,包括如alltoall多对多、allreduce环形通信等模式。

“这样的模式是为了更充分地利用GPU的算力,但是,该模式天然拥塞比较多,很随意马虎增加网络通信本钱。
”王亚晨说。
因此,算力网络要通过对网络传输协议、通信库等的提升,优化底层网络通信效率,降落网络通信本钱。

末了,分布式演习也意味着单点的故障将导致全体集群不可用,但软硬件的故障本身又是难以避免的,以是如何做到在故障发生时快速定位与规复演习,把丢失降到最低,也至关主要。

自研技能助力网络升级

针对这些需求,腾讯云近日推出了全新升级的星脉网络2.0。
相较去年6月发布的星脉网络1.0,星脉网络2.0可支持超10万卡大规模组网,网络通信效率提升60%,让大模型演习效率提升20%。

王亚晨表示,以前修赛道,腾讯云会从外部采购很多材料,而这次修赛道,腾讯云开始自己生产干系材料,让全体赛道的硬件水平得到大幅提升。

比如在星脉网络2.0中,交流机、光模块和网卡等网络设备均由腾讯云自研。
数据显示,采取自研设备后,星脉网络交流机容量从25.6T升级到51.2T,光模块速率从200G升级到了400G,让网络延迟降落40%。

值得关注的是,星脉网络2.0搭载的腾讯自研算力网卡CNIC,是公共云业内首款为AI演习设计的网卡。
网卡采取最新一代FPGA芯片,整卡带宽可达400Gbps,整机通信带宽可达3.2T。

除了对赛道硬件的升级,CNIC算力网卡上还运行着新一代腾讯自研通信协议TiTa。
在赛事当中,TiTa协议相称于指挥中央,可对赛车进行调度,避免单一车道拥堵。

据王亚晨先容,比较上一代,TiTa协议2.0从支配在交流机转移到了端侧的网卡上,协议算法也从原来的被动拥塞算法升级到了更为智能的主动拥塞掌握算法,可主动调度数据包发送速率,从而避免网络拥堵。

大略来说,以前的TiTa协议是在堵塞发生后才去处理,而TiTa2.0让每辆车都知道自己开多快得当,只管即便不会造成拥堵。

其余,星脉网络2.0对通信库TCCL也进行了升级。
原来的通信库TCCL相称于智能导航系统,能够见告赛车最短路径。
而2.0的通信库TCCL就像把车载导航升级成一支专业车队,除了导航,它现在可以根据不同的场景,对赛车本身进行改装,让赛车时候处于最佳性能。

针对故障修复问题,星脉网络2.0的运营系统新增灵境仿真平台,从原来仅能定位网络问题,变为可定位GPU节点问题。
这相称于对星脉网络进行了360度无去世角的立体监控,可以更快创造与定位网络问题,让整体故障的排查韶光大幅缩短。

大模型的未来趋势是,参数规模越来越大,算力集群规模也将随之扩大。
这意味着算力网络须要持续迭代,来匹配算力集群的演习需求。
未来,只有通信效率不断提升,以及通信本钱不断低落,才能真正充分利用算力资源。

更多内容请下载21财经APP