0%

大语言模型(LLMs)在许多任务中表现出色。然而,要高效利用大规模集群资源开发LLM并非易事,常常伴随着频繁的硬件故障、复杂的并行化策略和资源利用不平衡等诸多挑战。为此,我们针对Acme GPU数据中心在为期六个月的LLM开发工作负载中所累积的跟踪数据,进行了一次深入的特征分析研究。我们特别探讨了LLM与以往深度学习(DL)工作负载之间的差异,研究了资源利用模式,分析了各种任务失败的影响,总结了所遇到的难题,并揭示了优化LLM系统的潜在机会。

阅读全文 »