9 大模型部署手记LLaMa2+Chinese-LLaMA-Plus

1.简介:
组织机构:Meta()
代码仓: - /llama:code for LLaMA
模型:llama-2-7b、-LLaMA-Plus-7B()
下载:使用.sh下载
硬件环境:暗影精灵7Plus
版本: 11家庭中文版22H2
内存 32G
GPU显卡: GTX 3080(16G)
在 大模型部署手记(8)++llama.cpp+英文文本补齐
一文中 , 张小白完成了基于原始 llama-2-7b 模型的文本补齐 。这个模型只有英文问答 , 但是勤劳的中国人肯定不会局限于此的 。
打开- ymcui/-LLaMA-: 中文LLaMA&大语言模型+本地CPU/GPU训练部署 ( LLaMA &LLMs)中文LLaMA&大语言模型+本地CPU/GPU训练部署 ( LLaMA &LLMs) -- ymcui/-LLaMA-: 中文LLaMA&大语言模型+本地CPU/GPU训练部署 ( LLaMA &LLMs)
可以看到诱人的中文对话:
在这里可以看到 -LLaMA- 的家族图谱关系:
其中 , LLaMA模型是基础模型 , 主打“文本补齐”(给定上文内容 , 让模型生成下文) , 是对话模型 , 主打“文本对话”(指令理解:问答、写作、建议;多轮上下文理解:聊天)
而模型类型的命名跟手机后缀差不多 , 分为基础版、Plus版和Pro版 。例如对于模型 , plus偏向于短回复 , pro偏向于对过短的回复进行改进 。从名字可以看出 , 可以根据自己的经济能力(显卡内存和算力)选择适当的版本 。
而一个中文模型的生成过程是这样的:
1、先去Meta官网申请原版的LLaMa模型(需要到官网申请授权 , 并通过邮箱获取URL , 然后使用.sh下载)
2、从提供的链接下载 原版模型对应的Lora模型
3、进行模型合并:(参考 手动模型合并与转换 · ymcui/-LLaMA- Wiki · )
(1)使用提供的脚本.py , 将原版LLaMA模型转换为格式 , 举例如下:
src///llama/.py \
--\
-- 7B \
--
(2)对原版LLaMA模型(HF格式)扩充中文词表 , 合并LoRA权重并生成全量模型权重 , 这时可以选择版本权重(.pth文件)或者输出版本权重(.bin文件) 。对于llama.cpp部署 , 应转为pth文件 。
(a)对于基座模型 , 采用单LoRA权重合并方式 ( -LLaMA, -LLaMA-Plus, -)
/.py \
--\
--\
-- [pth|] \
--
(b)对于对话模型 , 采用多LoRA权重合并方式( -LLaMA, -LLaMA-Plus, -)
/.py \
--\
-- , \
-- [pth|] \
--
其中的模型顺序为先LLaMA , 后 , 比如 先LLaMA-Plus-LoRA后-Plus/Pro-LoRA
(3)对合并后的模型进行检查
根据提供的表格检查值的一致性 。
的检查方法是:
- your-model-file
Linux的检查方法是:
your-model-file
参考资料:【LLM】本地CPU部署民间版中文羊驼模型(-LLaMA-)踩坑记录 【LLM】本地CPU部署民间版中文羊驼模型(-LLaMA-)踩坑记录_提笔忘字的帝国的博客-CSDN博客想必有小伙伴也想跟我一样体验下部署大语言模型, 但碍于经济实力, 不过民间上出现了大量的量化模型, 我们平民也能体验体验啦~, 该模型可以在笔记本电脑上部署, 确保你电脑至少有16G运行内存 。
2.代码和模型下载:
llama.cpp 代码仓按照 大模型部署手记(8)++llama.cpp+英文文本补齐
一文的方式下载 。
-LLaMA-的代码仓:
d:
cd \
git clone
cd -LLaMA-
1.原版的LLaMa模型
已经在 大模型部署手记(7)+ AGX Orin
讲了具体步骤 。
在上次的 大模型部署手记(8)++llama.cpp+英文文本补齐
一文中 , 原版的LLaMa-7B模型已经被放到了 D:\llama.cpp\\7B 目录下: