乌漆嘛黑

Linux下vim的使用

发表于 2025-02-03 分类于配置

ubuntu 下 vim 的使用。包括下载命令，打开文件命令，修改文件命令。

阅读全文 »

vscode 使用code runner 运行代码输出乱码原因及解决办法

发表于 2025-02-03

解决vscode使用code runner 乱码的问题，主要保持代码的编码方式和终端编码方式一致。可以通过设置终端默认编码方式或代码文件默认编码方式解决。

阅读全文 »

使用 torch.profiler记录模型训练轨迹

发表于 2025-02-03 分类于配置

使用 torch.profiler记录模型训练轨迹，并使用Tensorboard进行可视化分析，首先导入需要的库，准备模型和数据集，设置记录器，生成json格式的文件，最后通过Tensorboard可视化。

阅读全文 »

【论文阅读】Characterization of Large Language Model Development in the Datacenter

发表于 2025-02-03 分类于论文阅读笔记，调度

大语言模型（LLMs）在许多任务中表现出色。然而，要高效利用大规模集群资源开发LLM并非易事，常常伴随着频繁的硬件故障、复杂的并行化策略和资源利用不平衡等诸多挑战。为此，我们针对Acme GPU数据中心在为期六个月的LLM开发工作负载中所累积的跟踪数据，进行了一次深入的特征分析研究。我们特别探讨了LLM与以往深度学习（DL）工作负载之间的差异，研究了资源利用模式，分析了各种任务失败的影响，总结了所遇到的难题，并揭示了优化LLM系统的潜在机会。

阅读全文 »