
5月7日,记者获悉,腾讯时刻团队针对DeepSeek开源的DeepEP通讯框架进行深度优化,使其在多种辘集环境下均完结显耀性能擢升。经测试,优化后的通讯框架性能在RoCE辘集环境擢升100%,IB辘集环境擢升30%,为企业开展AI大模子进修提供更高效的科罚决策。相关时刻决策获取了DeepSeek公开致谢,称这是一次“huge speedup”代码孝敬。
自本年2月DeepSeek开源包括DeepEP在内的五大代码库以来,该团队便向业界展示了奈何诓骗有限的硬件资源完结接近万卡集群的性能。在这些时刻中,DeepEP凭借挫折性的要道擢升了300%的通讯恶果,告捷科罚了MoE架构大模子对英伟达NCCL的依赖问题。
但该时刻在老本较低、适用面更广的RoCE辘集环境中发扬欠安,限制了其在更平凡场景的应用。这一痛点激勉了开源社区的捏续盘考。
腾讯星脉辘集团队基于在RoCE辘集限制的深厚辘集,在DeepEP开源后便张开时刻攻关,发现两大枢纽瓶颈:一是关于双端口网卡带宽诓骗率不及,二是CPU限定面交互存在时延。
张开剩余52%腾讯在RoCE辘集优化方面的挫折,率先体咫尺带宽分派的智能化,通过拓扑感知的多QP建链时刻,智能分派数据流,优化了双端口网卡的带宽诓骗率,确保每条数据通说念齐能得到充分使用。此举有用幸免了带宽浪掷,为RoCE辘集的性能擢升提供了有劲撑捏。
其次,腾讯还效率科罚了GPU通讯中的CPU限定瓶颈问题。通过基于IBGDA时刻的优化,腾讯使得“限定面”场景的操作也不错绕过CPU的“中转”,进一步缩小了延长和能耗,擢升了举座通讯恶果。
同期,GPU径直“对话”时存在的传输章程广宽贫困,腾讯提议了“QP内时序锁”机制,使得多个GPU间的数据传输八成精确、按章程完成,即使同期处理1000多个数据传输任务,DeepEP也能自动理顺先后章程。
在腾讯的时刻优化下,DeepEP不仅在RoCE辘集完结性能翻倍,反哺到IB(InfiniBand)辘集时更使原有通讯恶果再擢升30%。
咫尺该时刻已全面开源,并告捷应用于腾讯混元大模子等项筹画进修推理,在腾讯星脉与H20管事器构建的高性能环境中,这套决策相似展现出超卓的通用性。
(作家:深圳特区报记者 周雨萌 文/图)开云kaiyun.com
发布于:广东省