在人工智能领域,百度近期通过其万卡集群的部署,显著提升了算力效能并优化了成本结构,为行业树立了新的标杆。
这一壮举不仅为百度内部的大模型训练和推理提供了强有力的支持,更为整个行业在降低大模型使用成本方面开辟了新的道路。面对算力紧张这一长期困扰行业的难题,百度通过自主研发芯片和构建大规模集群,成功缓解了算力瓶颈,为行业的可持续发展注入了新的活力。
从技术层面来看,万卡集群的超大规模并行计算能力使得训练效率实现了质的飞跃。它能够大幅缩短千亿参数模型的训练周期,满足AI原生应用快速迭代的需求。同时,该集群还支持更大规模的模型和更复杂的多模态数据处理任务,为Sora等前沿应用的开发提供了坚实的基础。万卡集群还具备出色的多任务并发能力,通过动态资源切分和优化的通信机制,实现了训练成本的显著降低。
随着国产大模型的蓬勃发展,万卡集群的应用场景也在不断拓展。它从最初的“单任务算力消耗”模式逐步过渡到“集群效能最大化”模式,通过一系列先进的模型优化和动态资源分配技术,实现了训练、微调、推理等任务的混合部署,从而大幅提升了集群的综合利用率和单位算力的成本效益。
在万卡集群的建设过程中,百度百舸AI异构计算平台4.0发挥了不可或缺的作用。该平台在硬件扩展性、能效管理、分布式训练优化等方面取得了显著突破。它解决了卡间互联的拓扑限制和通信带宽瓶颈问题,采用了创新的散热方案以提升能效。同时,它还完善了模型的分布式训练策略,使得主流开源模型的训练效率得到了大幅提升。在稳定性方面,百舸平台提供了全面的容错机制,保障了万卡集群在高故障率环境下的稳定运行。
百舸4.0还构建了十万卡级别的超大规模HPN高性能网络。这一网络通过优化的拓扑结构和多路径负载均衡策略,实现了跨地域通信的高效和低延迟。在通信效率方面,百舸平台采用了先进的拥塞控制算法和集合通信算法策略,确保了网络的完全无阻塞和超高精度监控。
在多芯混训方面,百舸平台同样展现出了强大的资源整合能力。它能够将不同地点、不同规模的异构算力进行统一管理,构建起多芯资源池。当业务提交工作负载时,百舸平台能够自动进行芯片选型,选择性价比最高的芯片来运行任务,从而最大化地利用集群的剩余资源。这一特性使得万卡多芯混合训练的效能达到了前所未有的高度。
在集群稳定性方面,百度自研的BCCL(百度集合通信库)发挥了关键作用。它能够快速定位故障并提供自动化的容错能力,将故障恢复时间从小时级降低到分钟级。这一技术的引入极大地提高了集群的可靠性和可用性,为万卡集群的稳定运行提供了有力保障。
近期,花旗银行发布的一份研报也对百度等中国模型的高效和低成本优势给予了高度评价。研报指出,这些模型将有助于加速全球AI应用开发,并在全球范围内引发更多的技术创新。同时,中国工程院院士、清华大学计算机系教授郑纬民也表示,构建国产自主万卡系统虽然充满挑战,但对于行业的长远发展而言至关重要。