文|半导体产业纵横
本文直观地展示了拥有最多Nvidia H100 GPU的公司和组织。
随着对人工智能的需求猛增,各个行业的公司都在竞相扩大其计算能力,并投入数十亿美元用于升级支持人工智能模型所需的基础设施。
Nvidia 的H100 Tensor Core GPU,这是一款专为人工智能 (AI) 和高性能计算 (HPC) 工作负载设计的顶级图形处理单元。
本文中图表使用 2024 年版 《人工智能现状报告》(截至 2024 年 10 月更新)中的数据,直观地展示了拥有最多 Nvidia H100 GPU 的公司和组织。
meta 在 H100 GPU 采购中领先
下面,本文展示了截至 2024 年 10 月各公司和组织拥有的 Nvidia H100 GPU 的数量。
meta 和特斯拉等公司一直在购买数千个 H100 GPU,以支持其雄心勃勃的 AI 计划。虽然 Nvidia 尚未正式披露其 H100 产品的价格,但据估计,80GB 版本的单价在30,000 至 40,000 美元之间。
Nvidia 的高性能 H100 GPU 为公司的收入增长做出了重大贡献,尤其是在数据中心领域。
2024年1月,马克·扎克伯格宣布meta计划在年底前收购35万块Nvidia H100 GPU,大幅提升公司的AI计算能力。
此次对硬件的大规模投资旨在支持 meta 开发先进的人工智能模型,包括通用人工智能 (AGI),这是人工智能的一个理论分支,其中人工智能实现了“人类水平的学习、感知和认知灵活性”。
在特斯拉2024 年第一季度财报电话会议上,首席执行官埃隆·马斯克透露,特斯拉拥有 35,000 颗 H100 芯片,计划用这些芯片开发多个 AI 项目,包括Robotaxi和一台名为Dojo的超级计算机。
在加大采购力度的同时,图中的大多数公司也在同步推进自己的芯片自研计划,以降低对于英伟达芯片的依赖。
比如,今年4月,meta公布了自主研发芯片MTIA的最新版本。MTIA是meta专门为AI训练和推理工作设计的定制芯片系列。和去年五月官宣的meta第一代AI推理加速器MTIA v1相比,最新版本芯片在性能上有显著提升,专为meta旗下社交软件的排名和推荐系统而设计。分析指出,meta的目标是降低对英伟达等芯片厂商的依赖。
从名字来看,MTIA即为“meta训练与推理加速器(meta Training and Inference Accelerator)”的缩写。尽管含有“训练”二字,这款芯片实际上并不是为AI训练所优化的,而是专注于推理,即在生产过程中运行AI模型的任务。
meta在博客文章中写道,MTIA是公司“长期计划的重要组成部分”,旨在meta的服务中使用AI来构建基础设施:“为了实现我们对定制芯片的雄心,这意味着不仅要投资于计算芯片,还要投资于内存带宽、网络和容量以及其他下一代硬件系统。”
据介绍,新款MTIA芯片“从根本上专注于提供计算、内存带宽和内存容量的适当平衡”。初代MTIA v1芯片采用台积电的7nm制程工艺,而新款 MTIA 芯片采用台积电的5nm工艺,拥有更多的处理核心。该芯片将拥有256MB的片上内存,频率为1.3GHz,而MTIA v1的片上内存为128MB和800GHz。meta的早期测试结果显示,通过测试两种芯片的“四个关键模型”的性能,新芯片的性能是一代版本的三倍。
在硬件方面,为了支持下一代芯片,meta开发了一个大型机架式系统,最多可容纳72个加速器。它由三个机箱组成,每个机箱包含12个板,每个板包含两个加速器。该系统可以将芯片的时钟频率从初代的800 MHz提高至1.35GHz,并以90瓦的功率运行,而初代设计的功耗为25瓦。
在软件方面,meta强调,新芯片系统运行的软件堆栈与 MTIA v1非常类似,加快团队的部署速度。新的MTIA与为MTIA v1开发的代码兼容,由于meta已经将完整的软件堆栈集成到芯片中,开发者在几天内就可以使用这款新芯片启动并运行meta的流量,使meta能够在九个月的时间内将芯片落地到16个地区,运行生产模型。
根据meta的总结,迄今为止的测试结果表明,这款MTIA芯片可以处理作为meta产品组件的低复杂性 (LC) 和高复杂性 (HC) 排名以及推荐模型:“因为我们控制整个堆栈,与商用GPU相比,我们可以实现更高的效率。”
目前,新款MTIA芯片已被部署在meta的数据中心,并展现出了积极成果:“公司能够为更密集的AI工作负载投入并投资更多的算力。事实证明,在针对元特定工作负载提供性能和效率的最佳组合方面,该芯片与商用GPU具有高度互补性。”
特斯拉也依赖 Nvidia 为其当前的 Dojo 训练计算机提供动力,但它不想孤注一掷——尤其是因为 Nvidia 芯片价格昂贵。特斯拉还希望制造出更好的产品,以增加带宽并减少延迟。这就是为什么这家汽车制造商的 AI 部门决定推出自己的定制硬件程序,旨在比传统系统更有效地训练 AI 模型。
该计划的核心是特斯拉专有的 D1 芯片,该公司表示该芯片针对人工智能工作负载进行了优化。
特斯拉在 2021 年 AI Day 上发布了 D1 芯片,这是一款手掌大小的硅片。D1 芯片已投入生产。TSMC使用 7 纳米工艺节点制造该芯片。特斯拉称,D1 拥有 500 亿个晶体管和 645 平方毫米的大芯片尺寸。这一切都表明,D1 有望非常强大和高效,并能快速处理复杂任务。
不过,D1 的性能仍不如 Nvidia 的 A100 芯片,后者也是由台积电采用 7 纳米工艺制造的。A100 包含 540 亿个晶体管,芯片尺寸为 826 平方毫米,因此性能略优于特斯拉的 D1。
为了获得更高的带宽和更高的计算能力,特斯拉的人工智能团队将 25 个 D1 芯片融合成一个区块,以作为一个统一的计算机系统运行。每个区块的计算能力为 9 千万亿次浮点运算和 36 兆兆字节每秒的带宽,并包含电源、冷却和数据传输所需的所有硬件。
特斯拉还在研发下一代 D2 芯片,旨在解决信息流瓶颈问题。D2 芯片不会将各个芯片连接起来,而是将整个 Dojo 芯片放在一块硅片上。