【产业信息速递】AI,让数据中心支出大增

(信息来源:nextplatform

 

如果有一样东西绝对不受通胀抑制,并且在一定程度上也会加剧全球经济的通胀压力,那就是生成式人工智能。事实上,从我们目前掌握的有关全球服务器和存储支出的有限数据来看,人工智能基础设施支出似乎正在支撑服务器和存储的收入流,而用于其他工作负载的数据中心设备的基础支出已经变得越来越多。甚至比年初还要疲软。

 

坦白说,核心服务器和存储市场正陷入衰退,因为企业暂停,超大规模企业“消耗”他们去年年底已经购买的基础设施,但在昂贵的人工智能系统上的支出绝对呈爆炸式增长。

 

这是传统 HPC 仿真和建模社区一直梦想实现的“高性能计算”的爆炸式增长,但从未完全实现。我们认为,这是令人悲伤的,因为有一个公平的论点,即 HPC 在帮助人们创造事物或修复事物方面比生成式人工智能做得更有用,而且人们普遍期望生成式人工智能将消除整个类别正如亚马逊首席执行官安迪·贾西(Andy Jassy)在思考长期趋势时喜欢说的那样,“在适当的时候”对全球经济进行了研究。

 

但是,没有人愿意谈论这一点。因此,我们将继续并为我们的分析奠定基础。

 

大学物理教授教我们在开始解决问题之前对答案进行粗略估计,从而在解决问题时进行错误纠正。因此,让我们从今年夏天早些时候流传的谣言开始,即 Nvidia 在 2023 年只能生产大约 500,000 个“Hopper”H100 GPU。

 

如果你假设 Nvidia 的合作伙伴能够以平均每台 30,000 美元的价格出售它们,那么仅 H100 的销售就可以产生 150 亿美元的收入,这为 IDC 等公司每季度计算的收入做出了贡献。如果您假设随着 2023 年的进展,这 500,000 个 H100 GPU 的分布会逐渐增加(第一季度为 18%,第二季度为 22%,第三季度为 27%,第四季度为33%),这似乎是对增长的合理猜测——那么仅在 2023 年第二季度,这些 GPU 带来了 33 亿美元的销售额。现在,在系统级别,如果普通机器有八个这样的 GPU,并且与 Nvidia DGX H100 类似地加载内存、闪存和网络接口,那么在系统级别,这些基于 H100 的 GPU 负载系统占销售额约为 52 亿美元。

 

这是我们的粗略估算表,您可以随意选择:

 

根据 IDC 的历史数据,在这一生成式AI 热潮之前,服务器的平均售价约为 7,000 美元——这是在相当大的机器学习 AI 周期发生、一些大型 HPC 安装以及大型机和 Power Systems 的情况下进行的。2021 年初,IBM 也在同一时间进行了升级。(这是 IDC 最后一次向公众发布季度服务器跟踪报告。)

 

在对 IDC 刚刚发布的 2023 年第二季度数据中心基础设施支出数据进行切分和切片后,我们认为 390 亿美元支出中的很大一部分是由人工智能系统驱动的。如果按照我们上面的估计约为 70亿美元,那么只有 320 亿美元用于支持其他类型工作负载的基础设施。尽管如此,2023 年第二季度所有服务器和存储基础设施的支出仅增长了 1.3%,这比 IDC 在 4 月份报告的第一季度的8.2% 增长乏力,我们在此评论过。第一季度和第二季度之间出现了连续增长,这是一件好事,从第一季度的 358 亿美元上升,我们正在接近 2022 年第三季度的 407 亿美元支出,并期待 2022 年第四季度达到 428 亿美元的支出峰值,就像GenAI 革命正在酝酿之中。

 

以下是 IDC 在 2021 年推出的数据中心服务器存储模型的汇总数据,以消除其独立服务器和存储跟踪器中存储的重复计算。对于超大规模企业和云构建商来说,存储只是一个瘦小的服务器 CPU 电机和一个大盒子中的大量磁盘或闪存存储。你怎么算呢?服务器还是存储?IDC 两者都做到了,这意味着您无法协调两者,除非 IDC 在其当前方法中通过同时计算所有内容来做到这一点。

 

以下是 2020 年第一季度至2023 年第二季度使用这种新方法的云和非云基础设施支出数据:

 

与往常一样,红色粗斜体字是我们为了填补数据空白而做出的估计。

 

我们上周刚刚结束了 2023 年第三季度的数据,因此还没有可用的数据,而且 IDC 需要一段时间才能核对上市公司的所有财务数据并建立其数据中心支出模型,所以我们不会看到第三季度的数据数字可能持续到 2024 年 1 月。

 

今年第二季度,超大规模提供商和云构建商在共享云基础设施(同样是服务器和存储,但不是网络)上的支出增长了 13.7%,达到 179 亿美元,但在专用云基础设施上的支出(这意味着在运行中运行的东西)企业数据中心以及在主机代管设施或企业数据中心运行的大型云前哨站的费用同比下降略高于 5%,至 67 亿美元。第一季度,专用云支出下降 1.5%,至 58 亿美元。连续两个季度下降就是衰退。


非云基础设施(例如大型 X86、Power或大型机系统及其支持关系数据库和 ERP、供应链管理、仓库管理和客户关系管理应用程序的 SAN 存储)的支出下降了 8.3%,至 144 亿美元。同样,这一非云细分市场从 2023 年第一季度的 138 亿美元开始出现环比增长,这很好,但非云支出第一季度下降了 0.9%,第二季度下降了 8.3%,并且连续两个季度下降经济衰退。

 

事情是这样的。GPU 的严重短缺意味着GenAI 的最大参与者——微软、谷歌和亚马逊网络服务——正在从 Nvidia 获得优先分配,这反过来又加速了云构建商租赁基础设施的采用。只要有短缺,就会出现这种情况。但据报道,Nvidia 能够在 2024 年将H100 GPU 数量增至 150 万至 200 万个,稀缺性或许会有所缓解,价格也会下降,服务器市场也会正常化。这肯定是在 2018 年和 2019 年服务器内存飙升之后发生的,当时 DRAM 价格翻了一番,也推高了服务器平均售价。


关键是,当您需要 20,000 到25,000 个 GPU 来训练最先进的 GenAI 模型时,500,000 个单元仅相当于 20 到25 个集群。全球有超过 20 到 25 个组织想要做到这一点,并且考虑到训练这些模型需要几个月的时间,需要筛选数万亿个参数和需要咀嚼数万亿个数据令牌,这意味着也许您可以拥有数百个组织共享该基础设施。即使是 200 万台这种规模的设备,也只有数百个客户共享基础设施,这不一定能满足 GenAI 的需求。

 

这可能意味着 GPU 的定价将继续居高不下,因此人工智能系统的价格也将保持在高位。

 

让我们担心的是,第二季度服务器和存储出货量下降了 23.2%——我们不知道出货的机器数量,因为 IDC 没有提供这些数据。这是在 2023 年第一季度出货量下降 11.4% 后发生的。连续两个季度的下降是服务器和存储出货量的衰退。

 

展望今年年底,IDC 预计云基础设施支出将增长 10.6%,达到 1014 亿美元;三个月前的较早预测认为全年增长率为 7.3%。2023 年全年,共享云部分预计将增长 13.5%,达到 720 亿美元,专用云部分将增长 4.1%,达到 294 亿美元。非云服务器和存储支出将下降 7.9%,达到 585 亿美元。我们认为云中的所有增长都将由人工智能服务器驱动,而人工智能服务器又是由英伟达 GPU 及其竞争对手的其他人工智能引擎分配增加所驱动。

 

长期预测是,2022 年至 2027 年(含)云基础设施支出将以 11.3% 的复合年增长率增长,到 2027 年底将达到 1,567 亿美元,占服务器和存储总支出的 69.4%。到 2027 年,共享云规模将达到 1097 亿美元,复合年增长率为 11.6%,专用云规模将达到 470 亿美元,复合年增长率为 10.7%。无论您相信与否,根据 IDC 的预测,非云服务器和存储支出将增至 691 亿美元,2022 年至2027 年的复合年增长率为 1.7%。