
托管数据中心的标准结构是拥有数十个(甚至数百个)客户同时运行不同的应用程序。但英伟达提供了对一种新型数据中心的洞察,这个数据中心运行的应用程序很少,而且只有一个客户在使用它。
1、“人工智能工厂”的出现
Nvidia首席执行官在最近的财报电话会议上与分析师讨论了该公司的季度财务业绩,讨论了这种新兴的数据中心模型。
他说,这是一种新型的数据中心,这种新型的数据中心与过去的数据中心不同,过去的数据中心有很多应用程序运行,由很多不同的租户使用相同的基础设施。
这些新的数据中心托管很少的应用程序,如果不是一个应用程序,基本上由一个租户使用,它处理数据,训练模型,然后生成令牌并生成人工智能。我们将这些新数据中心称为“人工智能工厂”。
我们看到人工智能工厂随处可见。我的猜测是,几乎每个主要地区都会有,每个主要国家肯定都会有自己的人工智能云。因此,我们正处于这种拐点、这种计算转型的开始。
英伟达负责人表示,这种趋势目前正在印度、瑞典、日本和法国发生。人工智能要想真正有效,就必须符合语言和文化标准。日本的人工智能需求与瑞典的需求不同。这就是为什么人工智能数据中心和单租户人工智能工厂仅限于个别国家。
2、确定部署人工智能的规模
Amazon和Google等大型云服务提供商以及Equinix等主要主机托管提供商的数据中心往往非常庞大,有一个足球场那么大。考虑到Nvidia Hopper处理器的巨大功耗,这些人工智能工厂的规模将与麦当劳相当。
典型的数据中心机架功率预算在6kW至8kW范围内,但如果您希望部署针对运行LLM(如DGXH100)而优化的服务器,则单个服务器消耗约11KW的功率。Omdia数据中心计算和网络首席分析师ManojSukumaran指出,这相当于大约14台通用服务器的平均功耗。
在这种情况下,在典型的数据中心中只能运行有限数量的GPU服务器,例如DGXH100,如果你有一个1MW的数据中心,你可以在里面部署大约50台DGXH100服务器。就是这样。要将人工智能大规模部署到大量并发用户,您将需要大型此类服务器集群。这意味着典型的数据中心只能满足有限数量的客户的需求,而且很可能只能满足单个客户的需求。
美国数据中心运营商公司看到来自各类从事人工智能的公司的总需求份额显着上升,这些公司都有共同的特点:总体需求高、密度高、液体冷却,并且数据中心的位置通常更加灵活。
3、人工智能工厂的未来
对于AI工厂等单一用途GPU环境来说,最具成本效益的设计将是专门为更高密度和液体冷却而设计的专用数据中心,并且位置最适合AI公司。
但它们现在并不常见。虽然我们偶尔会有一个租户出租整栋大楼,但我们的大多数大楼都有数十个租户,每个租户都有不同的需求,因此,我们的设计面向未来,适合高密度和液体冷却等新技术,但我们仅在租户基础上实施这些解决方案。
虽然他还没有看到单个租户使用专用的AI数据中心,但在各种场景中使用AI的企业和政府最终可能会构建专用的AI集群。
人工智能集群的功耗将成为数据中心拥有大量服务器的限制因素,而且其中一些数据中心很可能专门用于人工智能。
围绕人工智能的安全和监管框架也可能推动这一趋势。生成式人工智能和通用人工智能的发展引发了一些安全和合规性问题,因此企业可能会决定从高度安全的专用设施运行此类工作负载。
4、人工智能工厂与数据中心
由于人工智能功率密度是传统数据中心的五到十倍,人工智能工厂的规模不会达到传统数据中心的大小,传统数据中心的面积已超过一百万平方英尺。人工智能工厂的面积大约为10000平方英尺。
它们会变得更小,因为你无法建造700,000平方英尺的人工智能数据中心。那东西消耗的力量将是巨大的。
传统数据中心和人工智能工厂之间的另一个区别是它们的位置。巨型数据中心往往建在可再生能源旁边的偏远地区,而人工智能工厂则可以建在市中心或大城市地区以及拥有大量可用电力的现有设施中。
目前,有大量办公和零售空间未得到充分利用,变得非常非常有吸引力的是一座废弃的建筑或未充分利用的城市空间,或者是一个偏僻的旧仓库的一部分,它们已经拥有电力,你可以在其中放下一些人工智能设备,一些液体冷却并插入电源去。
尽管无法预测数据中心行业的未来,但人工智能的快速增长暗示,随着数字基础设施运营商争先恐后地满足不断增长的需求,人工智能工厂可能很快就会成为必需品。