我们要训练OpenAI ChatGPT大小的语言模型通常需要相当大的超级计算机。但研究世界上最强大的超级计算机的科学家们发现了创新技术,可以使用更少的硬件来训练巨大的模型。
在一篇新的研究论文中,科学家们在他们的Frontier超级计算机中仅使用几千个GPU就训练了一个万亿参数模型,Frontier超级计算机是世界上最强大的非分布式超级计算机,也是全球仅有的两个百亿亿次系统之一。
他们仅使用Frontier中37888个AMD GPU中的3,072个GPU来训练巨型语言模型。这意味着研究人员仅用Frontier8%的计算能力训练了一个与ChatGPT传闻中的万亿参数大小相当的模型。
Frontier团队使用分布式训练策略实现了这一壮举,本质上是跨单元的并行架构训练模型。使用混洗数据并行性等技术来减少节点层之间的通信,使用张量并行性来处理内存限制,团队能够更有效地分配模型的训练。
研究人员用于协调模型训练的其他技术包括管道并行性,以分阶段在各个节点上训练模型以提高速度。
结果显示,对于1750亿个参数和1万亿个参数大小的模型,缩放效率为100%。该项目还为这两个模型实现了89%和87%的强大扩展效率。
万亿参数
训练具有万亿参数的大型语言模型始终是一项具有挑战性的任务。作者表示,该模型的绝对大小至少为14TB。相比之下,Frontier中的一个MI250XGPU只有64GB。
需要开发像研究人员探索的方法来克服记忆问题。
然而,他们面临的一个问题是由于批量较大而导致的损失差异。他们的论文指出,未来减少大型系统训练时间的研究必须看到以更小的每个副本批量大小进行大批量训练的改进。
研究人员还呼吁围绕AMDGPU开展更多工作。他们写道,大多数大规模模型训练都是在支持Nvidia解决方案的平台上完成的。虽然研究人员创建了他们所谓的在非Nvidia平台上高效训练法学硕士的蓝图,但他们写道:“需要做更多的工作来探索AMDGPU上的高效训练性能。”
在最新的Top500榜单中,Frontier继续保持着最强大超级计算机的桂冠,击败了英特尔驱动的Aurora超级计算机。