介绍量化的概念,使用lmdeploy进行模型量化与kv-cache量化部署。
大模型应用系列(十) 分布式训练与微调
介绍DeepSeep框架,使用LLamaFactory和XTuner进行分布式微调。同时介绍XTuner的安装和使用,以及XTuner如何进行模型转换与合并。
大模型应用系列(九) 对话模板对齐
解决在微调和部署时对话模板不统一的问题。
大模型应用系列(八) LoRA与QLoRA
LoRA与QLoRA的异同,以及如何在LLamaFactory上使用LoRA与QLoRA
大模型应用系列(七) LLama Factory和OpenWebui的安装和使用
详细介绍了LLamaFactory和OpenWebui的安装和使用, 以及如何在LLamaFactory上进行推理,微调。以及如何通过脚本对模型进行Lora微调。最后解释量化原理。
模型显存占用计算以及Zero优化器
介绍如何根据模型的参数量计算显存占用,介绍了分布式训练常见的通信原语,包括Reduce, Gather, Broadcast,Scatter,ReduceScatter,AllGather,AllReduce等,以及介绍Zero优化器三个级别各自的执行过程。
大模型应用系列(六) ollama,vllm,LMDeploy 部署大模型
介绍如何从modelscope下载模型,以及三种常用的本地模型部署工具 ollama,vllm, LMDeploy 的下载,部署和调用方法。
大模型应用系列(五) 在云服务器上训练gpt2模型以及通过后处理控制大模型输出
本地连接云服务器,在云服务器上训练模型,通过后处理控制模型的输出。
大模型应用系列(四) GPT2的调用和微调,以及数据集的制作
在古诗词数据集上微调GPT2,介绍了如何调用GPT,如何制作数据集,以及如何微调。
大模型应用系列(三) Bert微调-评论情感分析
在二分类问题上微调Bert模型,介绍AI项目的开发流程,包括数据,模型,微调,评估,部署,以及介绍开发过程中细节,并给出各个步骤的代码。