介绍如何从huggingface下载模型,如何使用API调用huggingface模型的在线服务,以及如何本地运行模型推理服务。
大模型应用系列(一)LLM落地常见的技术方案
简要介绍大模型落地的几种方案,包括:提示词工程,RAG,Agent,微调。
BIOS中断介绍
BIOS中断介绍,包括中断号以及一些常见操作如字符显示,清屏
决策树原理详解
决策树原理,举例演算及其代码实现
使用Monkey进行软件测试(随机测试+脚本测试)
使用Monkey测试进行软件测试,包括随机测试和脚本测试。
Ubuntu安装Docker
在Ubuntu上安装Docker,启动并验证第一个Docker容器
【论文阅读】Efficient Memory Management for Large Language Model Serving with PagedAttention
高吞吐量的LLM服务需同时处理多个请求。但是现有系统非常困难,因为KV cache非常巨大并且是动态伸缩的,因为显存管理不善,导致碎片和重复,造成显存的巨大浪费,从而限制了batch的大小和吞吐量。为了解决这个问题,本文借鉴操作系统的分页内存管理方法,提出了PagedAttention。基于这个方法,实现了vLLM,它能够实现:1) 接近零的KV cache浪费;2) 同一请求内和不同请求间KV cache的灵活共享。实验证明本方法的吞吐量是SOTA系统的2-4倍。
【论文阅读】Deep Learning Workload Scheduling in GPU Datacenters:Taxonomy, Challenges and Vision
论文阅读笔记Gao W, Hu Q, Ye Z, et al. Deep Learning Workload Scheduling in GPU Datacenters: Taxonomy, Challenges and Vision[J]. 讨论了数据中心负载作业的特征以及相关工作
win 11 将wsl转为wsl2并安装Ubuntu20.04到指定位置,挂载Ubuntu文件夹
win11 使用wsl安装Ubuntu20.04子系统到指定位置,并将wsl升级为wsl2。同时将Ubuntu文件系统生成挂载盘,方便使用
GridWord
使用Q-Learning 和Sara算法解决GridWorld炸弹环境,分为两个类:gridWorld.py和Agent.py:
环境类:继承gym.Wrapper,主要实现了render(显示每次的地图)。step(和环境交互,计算奖励值)
Agent类:包括两种算法,主要实现了learn(学习方法,每次更新Q-table)predict(根据输入的观察值,预测输出的动作)。sample(根据输入的观察值,采样输入的动作)
整体步骤为,首先根据grdiWordl创建出环境,每次机器人根据环境选择动作并更新。