正阳恒卓高凯：打造高效可靠AI基础设施，智算中心建设需系统思维

发布时间：2025-01-06 15:47 来源：ITBEAR 作者：沈瑾瑜

在近期举办的一场聚焦人工智能产业应用的重要大会上，北京正阳恒卓科技有限公司的首席科学家高凯，分享了公司在智算中心建设领域的实战经验，并针对AI基础设施建设运营中面临的高效性和可靠性挑战，提出了独到的见解。

高凯强调，尽管客户普遍期望AI任务能够高效利用智算中心提供的硬件资源，实现集群规模增大和硬件升级带来的性能提升，但现实却往往不尽如人意。对于大规模分布式AI任务来说，单纯增加机器数量和升级计算芯片，并不能轻松实现性能的线性增长。

他指出，大规模分布式AI任务对资源的需求巨大，容易导致碎片化资源闲置，并对调度系统性能提出更高要求。同时，并行方法和通信顺序也是影响分布式AI任务效率的关键因素。为了解决这些问题，高凯提出，大规模分布式AI基础设施必须拥有强大的系统容错能力和丰富的并行策略。

高凯还指出，在智算中心建设过程中，客户对AI大模型运行的可靠性有着很高的期望。然而，现实情况是，AI系统中的各个组件都可能出现故障，导致AI任务中断或失败。这主要是因为AI任务依赖专用硬件，与传统计算集群在能源、产热、工作条件等方面存在差异。同时，主流AI并行框架采用同步方式运行，存在单点故障问题，传统云平台的容错能力并不适用。

高凯认为，大规模分布式AI系统的容错能力是AI系统稳定运行的基础，已经成为全球AI大厂竞相关注的问题。结合正阳恒卓为国家超算、大模型公司等企业建设大规模智算中心的经验，他提出，建设高效可靠的AI基础设施是一个系统工程，可靠性和高效性都必须遵循从硬件到软件系统性开发的原则。

他将AI基础设施的构建分为智算中心建设、基础设施服务运营、AI开发部署框架以及AI应用开发四个层级，并指出，相比于大型厂商能够实现从底层硬件到上层AI应用的全栈自主研发，绝大部分小型企业往往不具备这样的经济能力和人才储备。因此，为了助推人工智能产业应用的发展，提供高效可靠的AI基础设施是智算中心未来需要具备的基本能力和发展趋势。

据高凯介绍，为了让AI基础设施能够惠及更多的人工智能产业应用企业，正阳恒卓正致力于领导并构建一个开放的、面向高效可靠智算中心的AI基础设施基础框架。这个开放基础框架中的功能模块基于开放的标准进行设计，旨在吸引更多相关行业的企业和开发者共同组建技术生态。这样，用户的模型开发、部署、应用就能够在不同的算力环境中实现无感的迁移，而AI基础设施企业则可以通过技术创新提供高效性和可靠性的增值服务。

作为一家成立于2015年4月的公司，正阳恒卓目前已服务超300家企业客户，是英伟达认证的精英级合作伙伴，并连续两年成为NVIDIA Networking NPN业绩第一名。在人工智能产业应用领域，正阳恒卓正以其丰富的经验和创新的技术，为推动AI基础设施的高效性和可靠性发展贡献力量。

更多>同类内容