百度智能云近日宣布,其自主研发的昆仑芯三代万卡集群已成功点亮,这一里程碑式的成就标志着中国自研万卡集群技术的重大突破。据悉,这不仅是国内首个正式运行的自研万卡集群,更是百度在人工智能算力领域取得的又一重要进展。
百度智能云方面表示,这一万卡集群的建成,不仅极大地提升了自身的算力支持能力,更为推动整个行业模型降本的趋势提供了有力支撑。在过去的一年中,大模型使用成本高昂一直是行业痛点,而算力紧张则是导致成本居高不下的关键因素之一。百度通过自研芯片和大规模集群的建设,不仅解决了自身的算力需求,更为整个行业指明了新的发展方向。
从算力角度来看,万卡集群的超大规模并行计算能力实现了训练效率的显著提升。这一集群能够将千亿参数模型的训练周期大幅缩短,满足AI原生应用快速迭代的需求。同时,它还能支持更大规模的模型、复杂任务以及多模态数据的处理,为Sora类应用的开发提供了强有力的支持。
万卡集群还具备出色的多任务并发能力。通过动态资源切分技术,单集群可以同时训练多个轻量化模型,并通过通信优化与容错机制减少算力浪费,实现训练成本的指数级下降。这一特性使得万卡集群在国产大模型兴起的背景下,逐渐从“单任务算力消耗”向“集群效能最大化”过渡。
在万卡集群的建设过程中,百度百舸AI异构计算平台4.0(简称“百舸平台”)发挥了至关重要的作用。该平台在2024年9月进行了升级,突破了硬件扩展性瓶颈,解决了卡间互联的拓扑限制,避免了通信带宽成为瓶颈。同时,它还针对芯片及集群功耗进行了优化,采用了创新性散热方案,解决了万卡集群的能效与散热问题。
在模型分布式训练优化方面,百舸平台采用了高效并行化任务切分策略,将主流开源模型的集群MFU提升至58%。在提升稳定性方面,它提供了容错与稳定性机制,避免了由于单卡故障率随规模指数上升而造成的万卡集群有效性大幅下降,保障了有效训练率达到98%。针对机间通信带宽需求,百舸平台还建设了超大规模HPN高性能网络,优化了拓扑结构,降低了通信瓶颈,带宽有效性达到90%以上。
百舸4.0平台还构建了十万卡级别的超大规模HPN高性能网络,针对跨地域通信中的高延迟问题进行了优化。通过优化的拓扑结构、多路径负载均衡策略及通信策略,它实现了几十公里的跨地域通信。在通信效率上,百舸平台采用了先进的拥塞控制算法和集合通信算法策略,实现了完全无阻塞,并通过10ms级别超高精度网络监控保障了网络的稳定性。
在多芯混训方面,百舸平台展现了强大的资源整合能力。它能够将不同地点、不同规模的异构算力进行统一管理,构建起多芯资源池。当业务提交工作负载时,百舸平台可自动进行芯片选型,依据集群剩余的芯片资源选择性价比最高的芯片来运行任务,从而最大化地利用集群的剩余资源,实现高达95%的万卡多芯混合训练效能。
在集群稳定性方面,百舸平台也提供了全面的故障诊断手段。它能够快速自动侦测到导致训练任务异常的节点故障,并通过百度自研的BCCL(百度集合通信库)快速定位故障并提供自动化的容错能力。这一能力将故障恢复时间从小时级降低到分钟级,提高了集群的可靠性和可用性。