正阳恒卓高凯:打造高效可靠AI基础设施,智算中心建设需系统思维

   发布时间:2025-01-06 15:47 作者:沈瑾瑜

在近期举办的一场聚焦人工智能产业应用的重要大会上,北京正阳恒卓科技有限公司的首席科学家高凯,分享了公司在智算中心建设领域的实战经验,并针对AI基础设施建设运营中面临的高效性和可靠性挑战,提出了独到的见解。

高凯强调,尽管客户普遍期望AI任务能够高效利用智算中心提供的硬件资源,实现集群规模增大和硬件升级带来的性能提升,但现实却往往不尽如人意。对于大规模分布式AI任务来说,单纯增加机器数量和升级计算芯片,并不能轻松实现性能的线性增长。

他指出,大规模分布式AI任务对资源的需求巨大,容易导致碎片化资源闲置,并对调度系统性能提出更高要求。同时,并行方法和通信顺序也是影响分布式AI任务效率的关键因素。为了解决这些问题,高凯提出,大规模分布式AI基础设施必须拥有强大的系统容错能力和丰富的并行策略。

高凯还指出,在智算中心建设过程中,客户对AI大模型运行的可靠性有着很高的期望。然而,现实情况是,AI系统中的各个组件都可能出现故障,导致AI任务中断或失败。这主要是因为AI任务依赖专用硬件,与传统计算集群在能源、产热、工作条件等方面存在差异。同时,主流AI并行框架采用同步方式运行,存在单点故障问题,传统云平台的容错能力并不适用。

高凯认为,大规模分布式AI系统的容错能力是AI系统稳定运行的基础,已经成为全球AI大厂竞相关注的问题。结合正阳恒卓为国家超算、大模型公司等企业建设大规模智算中心的经验,他提出,建设高效可靠的AI基础设施是一个系统工程,可靠性和高效性都必须遵循从硬件到软件系统性开发的原则。

他将AI基础设施的构建分为智算中心建设、基础设施服务运营、AI开发部署框架以及AI应用开发四个层级,并指出,相比于大型厂商能够实现从底层硬件到上层AI应用的全栈自主研发,绝大部分小型企业往往不具备这样的经济能力和人才储备。因此,为了助推人工智能产业应用的发展,提供高效可靠的AI基础设施是智算中心未来需要具备的基本能力和发展趋势。

据高凯介绍,为了让AI基础设施能够惠及更多的人工智能产业应用企业,正阳恒卓正致力于领导并构建一个开放的、面向高效可靠智算中心的AI基础设施基础框架。这个开放基础框架中的功能模块基于开放的标准进行设计,旨在吸引更多相关行业的企业和开发者共同组建技术生态。这样,用户的模型开发、部署、应用就能够在不同的算力环境中实现无感的迁移,而AI基础设施企业则可以通过技术创新提供高效性和可靠性的增值服务。

作为一家成立于2015年4月的公司,正阳恒卓目前已服务超300家企业客户,是英伟达认证的精英级合作伙伴,并连续两年成为NVIDIA Networking NPN业绩第一名。在人工智能产业应用领域,正阳恒卓正以其丰富的经验和创新的技术,为推动AI基础设施的高效性和可靠性发展贡献力量。

 
 
更多>同类内容
全站最新
热门内容
本栏最新
 
智快科技微信账号
微信群

微信扫一扫
加微信拉群
电动汽车群
科技数码群