Networking for GenAI Training and Inference Clusters | Jongsoo Park & Petr Lapukhov

@Scale

7 Sept 202323:00

Summary

TLDR在这段视频脚本中，Jonsu 和 Pierre 讨论了大型语言模型（LLMs）在系统设计，尤其是网络子系统设计中的影响。他们指出，与以往的识别模型相比，LLMs 在训练和推理时需要更多的计算能力。为了在合理的时间内完成训练，需要使用数万个加速器，这给网络子系统带来了挑战。他们提到了数据并行和模型并行等不同的并行化技术，以及这些技术如何产生多样化的通信模式，这对网络设计提出了新的要求。此外，他们还讨论了推理过程中的低延迟需求，以及如何通过分布式推理来满足这些需求。最后，他们强调了未来对于更大规模GPU集群的需求，以及为了实现更快的训练和更复杂的模型，需要超过30 exaflops的计算能力。

Takeaways

🚀 生成性AI是当前最难的话题之一，它涉及创造新的、逼真的内容，与理解现有信息的AI模型不同。
📈 生成性AI的发展为图像和视频生成、文本生成等新应用领域带来了巨大机遇。
📚 从2015年至今，计算能力的大幅提升和网络技术的发展对生成性AI的进步起到了关键作用。
🌱 Meta在生成性AI领域做出了显著贡献，例如通过提示生成令人信服的图像。
💻 大型语言模型（LLMs）对系统设计，特别是网络子系统，提出了新的挑战。
⚙️ 大型语言模型的训练和推理需要更多的计算资源，这导致了对网络子系统的不同需求。
📊 与推荐模型相比，大型语言模型需要多个数量级更多的计算能力。
🔍 LLM训练需要数万个GPU，以在合理的时间内完成训练。
🔗 Meta训练的最新大型语言模型，如拥有70亿参数的LLaMa 2，训练需要2万亿个token，相当于1.7亿GPU小时。
🔄 为了提高训练效率，需要使用数据并行化、模型并行化或流水线并行化等不同的并行化方案。
🔍 推理也成为系统设计中的一个有趣问题，因为它需要低延迟和高内存吞吐量。
🌐 随着模型和数据量的增加，网络子系统面临更多挑战，需要更高效的网络硬件和架构。

Q & A

生成性AI与传统的AI模型在功能上有何不同？
-生成性AI专注于创建和生成新的、逼真的内容，而传统的AI模型通常用于理解现有的信息，如图像分类和分割。生成性AI与理解现有内容的AI模型的主要区别在于，前者致力于生成新内容。
生成性AI的发展历史可以追溯到什么时候？
-生成性AI的发展可以追溯到2015年，当时多伦多大学的Jeff Hinton实验室展示了在桌面上生成一串香蕉的图像。
在生成性AI中，哪些技术进步对图像和文本生成产生了重要影响？
-DALL-E和稳定扩散（Stable Diffusion）对图像生成产生了重要影响，而GPT对文本生成产生了重要影响。
为什么大型语言模型（LLMs）的训练和推理需要大量的计算能力？
-大型语言模型的训练和推理需要处理大量的数据和复杂的算法，这要求使用大量的加速器（如GPU）来在合理的时间内完成训练，并且为了提供良好的用户体验，推理也需要大量的计算能力。
Meta在大型语言模型训练中面临了哪些网络子系统方面的挑战？
-Meta面临的挑战包括需要大量的加速器来完成训练，以及在推理阶段需要分布式推理，这要求网络子系统能够处理大量的数据传输和低延迟的需求。
在训练大型语言模型时，为什么需要使用不同的模型并行化技术？
-由于数据并行化技术已经不足以满足大型语言模型训练的需求，因此需要使用模型并行化或流水线并行化等其他并行化方案，这会在多个维度上产生多样化的通信模式。
Meta在大型语言模型训练中使用了哪些网络技术？
-Meta在大型语言模型训练中使用了Rocky和InfiniBand网络技术，其中Rocky网络技术在生产集群中实现了与InfiniBand相似的速度和可扩展性。
为什么大型语言模型的推理现在也成为了一个网络问题？
-由于模型的增长，单个GPU或主机内存无法容纳这些大型模型，需要跨多个系统进行推理，这就需要在多个系统之间进行数据的分布式处理，从而变成了一个网络问题。
在大型语言模型训练中，数据并行和模型并行各有什么特点和挑战？
-数据并行适合于规模较大的域，其挑战在于随着规模增加，消息大小减小，导致延迟变得更加明显。模型并行则需要更高的带宽效率，并且更难与计算部分重叠，对延迟和带宽的要求更高。
为什么大型语言模型训练需要考虑故障和可靠性问题？
-大型语言模型训练涉及大量的硬件和软件组件，随着系统的扩展，出现故障的频率也会增加。故障隔离和调试在大型系统中需要更长的时间，这会影响训练的效率和可靠性。
Meta对未来大型语言模型训练的愿景是什么？
-Meta的愿景是实现超过30 exaflops的计算能力，这将使得训练大型语言模型的时间从一个月缩短到不到一天，从而加快创新步伐，并使得能够训练更复杂、数据量更大的模型。