乌漆嘛黑

高吞吐量的LLM服务需同时处理多个请求。但是现有系统非常困难，因为KV cache非常巨大并且是动态伸缩的，因为显存管理不善，导致碎片和重复，造成显存的巨大浪费，从而限制了batch的大小和吞吐量。为了解决这个问题，本文借鉴操作系统的分页内存管理方法，提出了PagedAttention。基于这个方法，实现了vLLM，它能够实现：1) 接近零的KV cache浪费；2) 同一请求内和不同请求间KV cache的灵活共享。实验证明本方法的吞吐量是SOTA系统的2-4倍。

阅读全文 »

【论文阅读】Deep Learning Workload Scheduling in GPU Datacenters:Taxonomy, Challenges and Vision

发表于 2025-02-03 分类于论文阅读笔记，调度

论文阅读笔记Gao W, Hu Q, Ye Z, et al. Deep Learning Workload Scheduling in GPU Datacenters: Taxonomy, Challenges and Vision[J]. 讨论了数据中心负载作业的特征以及相关工作

阅读全文 »

win 11 将wsl转为wsl2并安装Ubuntu20.04到指定位置，挂载Ubuntu文件夹

发表于 2025-02-03 分类于配置

win11 使用wsl安装Ubuntu20.04子系统到指定位置，并将wsl升级为wsl2。同时将Ubuntu文件系统生成挂载盘，方便使用

阅读全文 »

GridWord

发表于 2025-02-03 分类于作业，机器学习

使用Q-Learning 和Sara算法解决GridWorld炸弹环境，分为两个类：gridWorld.py和Agent.py:
环境类：继承gym.Wrapper，主要实现了render（显示每次的地图）。step（和环境交互，计算奖励值）
Agent类：包括两种算法，主要实现了learn（学习方法，每次更新Q-table）predict（根据输入的观察值，预测输出的动作）。sample(根据输入的观察值，采样输入的动作)
整体步骤为，首先根据grdiWordl创建出环境，每次机器人根据环境选择动作并更新。

阅读全文 »