人工智能的使用肯定会带来额外的网络流量,但对于大多数企业来说,它可能不需要对整个数据中心网络进行重大检修。如今每个人都热衷于人工智能,甚至包括网络规划人员。但对于网络专业人士来说,主要关注点是人工智能在网络运营中的使用。AI对网络流量的影响如何?
当询问近100名网络规划人员时,只有8人告诉我他们考虑过人工智能可能对网络流量和网络规划产生的影响。他们错过了什么吗?也许吧,因为这里有两个问题摆在桌面上。一是人工智能是否会对企业网络和流量产生潜在影响,二是是否会对技术产生影响。
人工智能对流量和基础设施的影响很大程度上取决于企业自行托管人工智能的计划。绝大多数人工智能模型都在GPU等专用芯片上运行,这意味着数据中心有专门的服务器。截至今天,我已经收到了91家企业对“自托管”AI的评论。我将这个术语放在引号中,因为事实是,其中只有16个实际上已在2023年计划进行特定的AI托管,并且只有8个表示他们今年已经进行了任何自托管。毫不奇怪,这八位规划者正是考虑过网络影响的八位规划者。到2024年,这个数字将跃升至77个,我认为这种增长正在刺激人工智能和网络设备供应商的兴趣。例如,思科和瞻博网络都在大肆宣扬他们的人工智能网络资质。
当然,问题在于什么样的人工智能正在变得自托管和联网,我们不应该假设我们可以根据我们所读到的有关人工智能的内容来回答这个问题。
ChatGPT、谷歌和微软等公司的生成式人工智能得到了很多关注,但就企业而言,经典的生成式开放互联网方法存在一个根本问题。他们担心在公共训练的聊天机器人中很常见的幻觉。他们担心人工智能创建的内容会出现版权问题。如果人工智能以专门的方式进行训练,他们会担心自己数据的安全性。一些人担心所有这些GPU产生类似人类结果的能源和环境影响。最近的许多人工智能举措,包括谷歌的Gemini,在一定程度上是为了推动一种新形式的生成式人工智能,这种技术将基本的大语言模型技术应用于企业数据中心内的企业数据,该技术为企业数据创建了流行的生成式人工智能服务,或作为企业云服务的一部分。
如果企业正在寻找一种轻量级大语言模型的人工智能方法,这将意味着其数据中心中专用人工智能服务器的数量将受到限制。想象一下GPU服务器的单个AI集群,您就会看到企业所看到的情况。该集群内AI网络的主导策略是InfiniBand,这是一种超快、低延迟的技术,受到NVIDIA的大力支持,但在企业层面并不是特别流行(甚至不为人所知)。NVIDIA的DGXInfiniBand方法可连接大多数大型AI数据中心中的大量GPU,这就是为什么几乎可以假设InfiniBand将成为用于自托管AI的技术。
这可能是不必要的,而且可能是完全错误的。企业不需要在互联网上抓取其模型的训练数据。企业不需要支持其人工智能的大众市场使用,如果他们支持客户支持中的聊天机器人等应用程序,他们可能会使用云托管而不是内部部署。这意味着企业的人工智能实际上是增强分析的一种形式。分析的广泛使用影响了数据中心访问数据库的网络规划,如果广泛使用,人工智能可能会增加数据库访问。但即使考虑到所有这些,也没有理由认为占主导地位的数据中心网络技术以太网不适合人工智能。因此,请忘记InfiniBand技术转变的概念。但这并不意味着不需要在网络中规划人工智能。
将人工智能集群视为一个巨大的虚拟用户社区。它必须从企业存储库收集所有数据,以进行培训并获取最新信息来回答用户问题。这意味着它需要一条通往该数据的高性能数据路径,并且不能允许该路径拥塞网络内的其他传统工作流程。对于拥有多个数据中心、多个用户群的企业来说,这个问题非常严重,因为他们可能不希望在每个位置都托管人工智能。如果AI集群与某些应用程序、数据库和用户分离,则可能必须增强数据中心互连(DCI)路径,以承载流量而不产生拥塞风险。
根据八家人工智能托管企业的说法,人工智能流量的主要规则是您希望工作流程尽可能短,并且连接速度最快。通过广泛的连接拉动或推送大量人工智能数据可能几乎不可能防止随机的大量数据移动干扰其他流量。确保人工智能流不会与其他大容量数据流(例如传统分析和报告)发生冲突尤为重要。一种方法是绘制人工智能工作流程并沿路径增强容量,另一种方法是通过正确放置人工智能集群来缩短和指导人工智能工作流程。
人工智能集群的规划从企业人工智能和业务分析之间的关联开始。分析使用与人工智能可能使用的相同数据库,这意味着将人工智能放置在托管主要分析应用程序的地方将是明智的。请记住,这意味着将人工智能放置在实际分析应用程序运行的地方,而不是格式化结果以供使用的地方。由于分析应用程序通常在主要数据库的位置附近运行,这将使人工智能位于最有可能生成最短网络连接的位置。在AI集群内运行胖以太网管道并连接到数据库主机,您可能处于良好状态。但要仔细观察人工智能的使用和流量,特别是在对谁使用它以及使用多少没有太多控制的情况下。八家企业中有六家报告称,自托管人工智能的使用十分猖獗,而且在很大程度上是不合理的,这可能会导致成本高昂的网络升级。
企业人工智能网络的未来不在于人工智能如何运行,而在于如何使用人工智能,虽然人工智能的使用肯定会带来额外的流量,但不需要将整个数据中心网络更换为数百千兆位以太网容量。它需要更好地理解人工智能的使用如何与人工智能数据中心集群、云资源和一些生成人工智能相连接。如果思科、瞻博网络或其他供应商能够提供这一点,他们可以期待在2024年获得丰厚的奖金。