北电数智国产算力PoC平台：加速大模型落地，驱动数字中国创新发展

发布时间：2024-12-17 14:28 来源：ITBEAR 作者：陆辰风

在北京举办的“WISE2024 商业之王”大会上，一场关于国产算力应用的深度探讨吸引了众多行业精英的目光。北京电子数智科技有限责任公司（简称“北电数智”）作为受邀嘉宾，其CMO兼战略与市场负责人杨震发表了题为《“国产算力 PoC 平台”引领算力优化新路径》的演讲，分享了北电数智在国产算力应用领域的独到见解和最新探索成果。

随着OpenAI o1的发布，强化学习在提升大模型智力方面的推理模型路线逐渐获得行业认可。然而，尽管推理模型以长思考时间换取智能水平的提升，但在实际应用中，用户仍追求快速响应、低成本推理和高吞吐能力。推理模型注重垂直场景的落地，但存在产业链断层问题，模型方与算力供给需要按场景进行系统化适配。

针对这些挑战，北电数智推出了首个国产算力PoC平台，该平台构建在北电数智先进计算迭代验证平台（前进・AI 异构计算平台）之上，位于北电数智规划建设的北京数字经济算力中心。该平台能够实现对不同厂家算力芯片的纳管与统一调度，根据模型任务特性精准调配算力资源。通过构建丰富的算子库和通信库，平台加速模型训练进程，提供高性价比、高品质的算力支持。

在模型与行业、场景深度融合的背景下，定制化需求愈发重要。北电数智的国产算力PoC平台能够在垂直场景下为用户提供算力集群的评测、适配和验证服务，帮助算力需求方找到最适合的“软件+硬件”组合方案，提升模型训推算力效率，降低训推成本，提升用户体验。

国产算力PoC平台在提升国产芯片和集群利用率方面表现出色。通过调度、算法和算子等多层面的优化，平台显著改善了国产集群的训推效能。混训集群的训练效果达到单一集群综合训练效果的1.2倍，混推操作时平均MFU（模型对算力的利用率）从30%提升至60%。

在模型生成速度方面，经过国产算力PoC平台多层优化后，基于国产芯片的模型首字延迟最多可优化10倍，解码延迟同样可达10倍优化，推理吞吐量最高可实现80倍提升。这意味着平台能够在单位时间内处理更多数据，更快速地响应模型推理需求，提升数据处理效率和用户体验。

为了进一步提升运行效率和节约资源，北电数智在集群中采用了多种推理优化策略。例如，利用scoping to zero特性缩短冷启动时长，在集群推理环节支持Continuous batch、Page attention、CPU/GPU异步等推理策略，提高GPU利用率。

目前，北电数智的国产算力PoC平台已支持对十多种国内知名算力芯片的评测和二十多款主流模型的适配。平台在AI发展中展现出关键价值和强大竞争力，通过精准的算力纳管与调度、卓越的模型适配能力以及全方位的优化举措，解决了推理模型落地应用时的诸多难题。

作为肩负“建设数字中国”使命的AI原生国企，北电数智始终坚持探索难而正确的事。公司致力于强化行业间的生态联动，打通模型、场景与芯片在商业运营及研发创新层面的闭环链路。在人工智能产业蓬勃发展的背景下，北电数智积极布局，通过持续优化国产算力PoC平台整合行业资源，为产业链上下游企业提供高效的合作桥梁，提升我国人工智能产业自主化创新能力。

北电数智的国产算力PoC平台不仅提升了国产芯片利用率和集群效能，降低了模型训推成本，还显著提高了运行效率。平台在AI领域的实践和创新，为国家科技战略的推进做出了积极贡献。

北电数智还通过不断的技术创新和生态建设，推动了人工智能技术在各行各业的广泛应用和深入发展。公司的努力和成果，为行业树立了标杆，也为未来的发展奠定了坚实基础。

更多>同类内容