ChatGLM-6B 的部署与微调以及过程中涉及知识总结(7.26更新)_demo.queue().launch(share=true, inbrowser=true)-程序员宅基地

最近因为工作关系，接触到ChatGLM-6B，自己部署做了一些测试。
参考了网上很多优秀的资料，在此基础上，补充一些自己实践中发现的细节。

部署内容部分绝大部分来自：https://zhuanlan.zhihu.com/p/627168140
微调部分借鉴：https://zhuanlan.zhihu.com/p/625468667
细节问题参考：https://zhuanlan.zhihu.com/p/624918286
感谢作者分享，置顶推荐！！

一些知识扫盲（本人作为一个小白在学习过程中感觉需要了解的基础知识大部分文章上来就说怎么干，没说为什么，有些碎片化，不成体系，大家见谅）：

预训练模型的特点：

使用大型数据集做训练，已经具备了提取浅层基础特征和深层抽象特征的能力
大模型（卷积神经网络）的核心：
1）浅层卷积层提取基础特征：比如边缘、轮廓等基础特征
2）深层卷积层提取抽象特征：比如整个脸型
3）全连接层根据特征组合进行评分评估

为什么做微调：

相对于从头训练可能带来问题：
1.需要大量数据、计算时间、计算资源
2.训练后模型不收敛，参数不够优化，准确度低，模型泛化程度低，容易过拟合（说白了就是自己训练完还不如原版）
微调后：
可以在确保原有模型能力的基础上，优化针对特定问题的求解结果

在什么情况下使用微调

1.要使用的数据集与预训练的数据集相似，如果不太相似，效果就没那么好了（比如预训练数据集是自然景物的图片，自己要做人脸识别，因数据提取特征就是不同，所以相应参数也大不相同，微调起不到效果）
2.自己搭建或使用的模型，正确率太低，自己能收集到数据集太小，或计算资源不足
因此在微调实践中，经常是用较少的数据进行训练（即反向传播）

RLHF 训练流程

1.SFT（Supervised Fine-Tuning）：使用精选的人类回答来微调预训练的语言模型以应对各种查询（query），有监督微调，数据格式：[{“prompt”:“xxxxx”,“answer”:“yyyyyy”},{“prompt”:“xxxxx”,“answer”:“yyyyyy”},…]

2.RM （Reward Model）：奖励模型，使用一个包含人类对同一查询（query）的多个答案打分的数据集来训练一个独立的（通常比 SFT 小的）奖励模型（RW），数据格式：1个相同问题，有多组答案
[
{“prompt”:“xxxxx”,“answer”:“yyyyyy1”,score:-1.0}
{“prompt”:“xxxxx”,“answer”:“yyyyyy2”,score:5.0}
{“prompt”:“xxxxx”,“answer”:“yyyyyy3”,score:8.0}
…
]

3.RL（Reinforcement Learning）：强化学习，利用 Proximal Policy Optimization（PPO）算法，根据 RW 模型的奖励反馈进一步微调 SFT 模型。数据格式：也是一问一答跟SFT类似
参考资料：
第一阶段: 有监督的微调 (SFT)
第二阶段: 奖励模型微调
 第三阶段: 人工反馈强化学习 (RLHF)
DeepSpeed Chat 训练详细说明

微调数据举例

{
    
    "instruction": "你现在是一个很厉害的阅读理解器，找到句子中的三元组信息并输出成json给我。",
    "input": "九玄珠是在纵横中文网连载的一部小说，作者是龙马。",
    "target": "```json\n[{
     \"predicate\": \"连载网站\", \"object_type\": \"网站\", \"subject_type\": \"网络小说\", \"object\": \"纵横中文网\", \"subject\": \"九玄珠\"}, {
     \"predicate\": \"作者\", \"object_type\": \"人物\", \"subject_type\": \"图书作品\", \"object\": \"龙马\", \"subject\": \"九玄珠\"}]\n```"
}

{
    
    "prompt": "Instruction: 你现在是一个很厉害的阅读理解器，找到句子中的三元组信息并输出成json给我:。\nInput: 九玄珠是在纵横中文网连载的一部小说，作者是龙马。\nAnswer: ", 
    "answer": "```json\n[{
     \"predicate\": \"连载网站\", \"object_type\": \"网站\", \"subject_type\": \"网络小说\", \"object\": \"纵横中文网\", \"subject\": \"九玄珠\"}, {
     \"predicate\": \"作者\", \"object_type\": \"人物\", \"subject_type\": \"图书作品\", \"object\": \"龙马\", \"subject\": \"九玄珠\"}]\n```"
}

Instruction：存放我们希望模型做的任务的指令
Input：存放我们喂给模型的任务数据
Target：存放模型的输出标签
一问一答的格式将Instruction 与 Input整合

微调过程过程一些注意事项

1.一般来说微调过程会冻结预训练模型的前几层，只调整最后一层网络，如果微调数据集足够大，可以适当加大调整的网络层数
2.使用较小的学习率训练网络，通常做法是微调的初试学习率比从头训练的初始学习率低10倍，就ChatGLM来说网上看到有人推荐使用lr（learning_rate 学习率）=2e-5或者更小
3.小样本（100条）微调，建议 num_train_epochs（最大迭代轮数） =20 才能稳定拟合任务要求
百度文心千帆推荐：100条数据时, Epoch为15，1000条数据时, Epoch为10，10000条数据时, Epoch为2。

2.微调数据集到底要多大合适，网上看了很多，都说要看具体情况选择数量（说的很对，然而没有任何帮助），具体一点的建议找到几条：
1）如果预训练和微调任务的数据分布是否一致；分布一致，100条就够，分布差异大就需要多些数据，千条或者万条以上为佳
2）应该选择多个有代表性的任务，每个任务实例数量不应太多（比如：数百个）否则可能会潜在地导致过拟合问题并影响模型性能。同时，应该平衡不同任务的比例，并且限制整个数据集的容量（通常几千或几万），防止较大的数据集压倒整个分布。
综上所述，微调训练集单任务几百条足够了，整体样本数不宜超过数万

3.微调不适合做的事情
最好不要期望通过微调注入新知识，因为微调数据集跟预训练数据集的数量差距巨大。以灌注领域知识的目的通过SFT去做微调容易把模型"弄傻"

数据集分类

分为训练集、验证集、测试集
如果当数据量不是很大的时候（万级别以下）的时候将训练集、验证集以及测试集划分为6：2：2；若是数据很大，可以将训练集、验证集、测试集比例调整为98：1：1；但是当可用的数据很少的情况下也可以使用一些高级的方法，比如留出方，K折交叉验证等。

输入数据可以无限长么

这里引用苏神（RoPE作者）在群里的回复。

限制在训练数据。理论上rope的llama可以处理无限长度，但问题是太长了效果不好啊，没训练过的长度效果通常不好。而想办法让没训练过的长度效果好，这个问题就叫做“长度外推性”问题。

所以接受2k的长度限制吧，长度越大训练资源占用，时间越长， ChatGLM最大限制2048
最新的 ChatGLM2 已经支持到32K，赞一个，真给力！！
如果非要支持输入超长文本，可以考虑 LangChain + ChatGLM-6B 来解决
本质就是通过LangChain 的mapreduce功能对长文本分片处理再聚合，具体我还没有研究，不过网上有示例
ChatGLM-6B + LangChain 实践

一些名词解释

RLHF ：依据人类反馈的强化学习方式

LoRA ：低秩自适应（一种微调模型的方案），它冻结预训练的模型权重，并将可训练的秩分解矩阵注入Transformer架构的每一层与之并行，从而大大减少了下游任务的可训练参数数量。微调就是一种LoRA

anaconda3：一个虚拟环境管理工具，用于在本地部署多个AI运行环境以避免冲突

ChatGLM-6B 部署

下载源码

git clone https://github.com/THUDM/ChatGLM-6B

git源加速

这里可能会卡，可以提前在命令行设置git学术资源加速
执行下面2条命令，设置git学术资源加速

git config --global http.proxy socks5h://172.16.16.39:8443
git config --global https.proxy socks5h://172.16.16.39:8443

后面的步骤中再执行git clone命令就不会卡住了。

要取消git学术加速也简单，执行下面的命令（所有步骤执行完后再取消哦~）
取消git学术资源加速

git config --global --unset https.proxy
git config --global --unset http.proxy

安装依赖

其中 transformers 库版本推荐为 4.27.1，但理论上不低于 4.23.1 即可

cd ChatGLM-6B
pip install -r requirements.txt

下载模型

这里我将下载的模型文件放到了本地的 chatglm-6b 目录下

git clone https://huggingface.co/THUDM/chatglm-6b /mnt/workspace/chatglm-6b（目录可以调整为自己本地的目录）

参数调整

因为前面改了模型默认下载地址，所以这里需要改下路径参数，加载本地模型
分别修改 web_demo.py、cli_demo.py、api.py 文件（在 ChatGLM-6B 下）

tokenizer = AutoTokenizer.from_pretrained("/mnt/workspace/chatglm-6b", trust_remote_code=True)
model = AutoModel.from_pretrained("/mnt/workspace/chatglm-6b", trust_remote_code=True).half().cuda()

如果想要暴露在公网上，需要修改 web_demo.py 文件

demo.queue().launch(share=True, inbrowser=True, server_name='0.0.0.0', server_port=7860)

Web 模式启动

pip install gradio
python web_demo.py

API 模式启动

pip install fastapi uvicorn
python api.py

测试命令

curl -X POST "http://127.0.0.1:8000" -H 'Content-Type: application/json' -d '{"prompt": "你好", "history": []}'

命令行模式启动

python cli_demo.py

以上是 FP16（无量化）精度，INT8 与 INT4 精度的量化加载方式可以参考 Github README

基于 P-Tuning 微调 ChatGLM-6B

禁用 W&B

禁用 W&B，如果不禁用可能会中断微调训练，以防万一，还是禁了吧
transformers 4.12.5 版本使用的环境变量，在5.x版本中已经弃用

export WANDB_DISABLED=true

#### 准备数据集
格式：json key值可以自定义，多条数据直接换行，而不是组成json数组
```bash
{
    
    "content": "类型#上衣*版型#宽松*版型#显瘦*图案#线条*衣样式#衬衫*衣袖型#泡泡袖*衣款式#抽绳",
    "summary": "这件衬衫的款式非常的宽松，利落的线条可以很好的隐藏身材上的小缺点，穿在身上有着很好的显瘦效果。领口装饰了一个可爱的抽绳，漂亮的绳结展现出了十足的个性，配合时尚的泡泡袖型，尽显女性甜美可爱的气息。"
}

需要准备三个数据集：即上面提到的训练集、验证集、测试集，样本不能重复，比例按照上面说的即可
PS：这里可能还会需要做一些泛化，交叉处理，不顾我还没琢磨明白。。。

修改 train.sh 和 evaluate.sh 中的 train_file、validation_file和test_file为你自己的 JSON 格式数据集路径，并将 prompt_column 和 response_column 改为 JSON 文件中输入文本和输出文本对应的 KEY。可能还需要增大 max_source_length 和 max_target_length 来匹配你自己的数据集中的最大输入输出长度。

P-Tuning-v2 方法会冻结全部的模型参数，可通过调整 quantization_bit 来被原始模型的量化等级，不加此选项则为 FP16 精度加载。训练前先备份原始预训练模型，省的训练失败还得重新下载

具体安装训练过程直接看官方文档即可：https://github.com/THUDM/ChatGLM-6B/tree/main/ptuning

微调过程中遇到的问题

cuda内存溢出

OutOfMemoryError: CUDA out of memory. Tried to allocate 5.16 GiB (GPU 0; 22.20 GiB total capacity; 15.09 GiB already allocated; 5.14 GiB free; 16.02 GiB reserved in
total by PyTorch)If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation. See documentation for Memory Management and
PYTORCH_CUDA_ALLOC_CONF

1.先尝试修改环境变量的值，PYTORCH_CUDA_ALLOC_CONF=max_split_size_mb:$size
这个size可以设置为比 Tried to allocate 5.16 GiB 这个值小的一个2进制值（单位为MB），比如这里我们可以设置为：5120，这样可以降低内存碎片带来的损耗，能稍微提高一点内存可用率
具体方法可以修改train.sh 以及 evaluate.sh
在触发运行main.py 之前执行

export PYTORCH_CUDA_ALLOC_CONF=max_split_size_mb:xxxx

原理参考：https://blog.csdn.net/MirageTanker/article/details/127998036

2.修改train.sh，evaluate.sh中的训练参数值

--max_source_length xxxx
--max_target_length xxxx

3.降低精度用8bit或4bit执行

降低训练时间（会影响训练效果）

1.如果非要要缩减训练时间，最直接办法是调整trian.sh中的训练参数值

 --max_steps 3000 \
 --save_steps 1000 \

只要减少训练步数，训练时间就会等比例减少，并且max_source_length 、max_target_length 也会影响训练所需要的时间，调整样本数量反而影响不大（除非降低数量级）

2.微调参数与运行参数要保持一致
微调过程中如果调整了，PRE_SEQ_LEN 参数，那么再运行微调后模型的时候，也需调整pre_seq_len参数保持长度一致

config = AutoConfig.from_pretrained("/mnt/data/chatglm2-6b", trust_remote_code=True, pre_seq_len=6000)

本文链接：https://blog.csdn.net/windywolf301/article/details/131114160

原作者删帖不实内容删帖广告或垃圾文章投诉

智能推荐

攻防世界_难度8_happy_puzzle_攻防世界困难模式攻略图文-程序员宅基地

文章浏览阅读645次。这个肯定是末尾的IDAT了，因为IDAT必须要满了才会开始一下个IDAT，这个明显就是末尾的IDAT了。，对应下面的create_head()代码。，对应下面的create_tail()代码。不要考虑爆破，我已经试了一下，太多情况了。题目来源：UNCTF。_攻防世界困难模式攻略图文

达梦数据库的导出（备份）、导入_达梦数据库导入导出-程序员宅基地

文章浏览阅读2.9k次，点赞3次，收藏10次。偶尔会用到，记录、分享。1. 数据库导出1.1 切换到dmdba用户su - dmdba1.2 进入达梦数据库安装路径的bin目录，执行导库操作　　导出语句：./dexp cwy_init/[email protected]:5236 file=cwy_init.dmp log=cwy_init_exp.log　注释：　　 cwy_init/init_123..._达梦数据库导入导出

js引入kindeditor富文本编辑器的使用_kindeditor.js-程序员宅基地

文章浏览阅读1.9k次。1. 在官网上下载KindEditor文件，可以删掉不需要要到的jsp，asp，asp.net和php文件夹。接着把文件夹放到项目文件目录下。2. 修改html文件，在页面引入js文件：<script type="text/javascript" src="./kindeditor/kindeditor-all.js"></script><script type="text/javascript" src="./kindeditor/lang/zh-CN.js"_kindeditor.js

STM32学习过程记录11——基于STM32G431CBU6硬件SPI+DMA的高效WS2812B控制方法-程序员宅基地

文章浏览阅读2.3k次，点赞6次，收藏14次。SPI的详情简介不必赘述。假设我们通过SPI发送0xAA，我们的数据线就会变为10101010，通过修改不同的内容，即可修改SPI中0和1的持续时间。比如0xF0即为前半周期为高电平，后半周期为低电平的状态。在SPI的通信模式中，CPHA配置会影响该实验，下图展示了不同采样位置的SPI时序图[1]。CPOL = 0，CPHA = 1：CLK空闲状态 = 低电平，数据在下降沿采样，并在上升沿移出CPOL = 0，CPHA = 0：CLK空闲状态 = 低电平，数据在上升沿采样，并在下降沿移出。_stm32g431cbu6

计算机网络-数据链路层_接收方收到链路层数据后,使用crc检验后,余数为0,说明链路层的传输时可靠传输-程序员宅基地

文章浏览阅读1.2k次，点赞2次，收藏8次。数据链路层习题自测问题1.数据链路(即逻辑链路)与链路(即物理链路)有何区别?“电路接通了”与”数据链路接通了”的区别何在?2.数据链路层中的链路控制包括哪些功能?试讨论数据链路层做成可靠的链路层有哪些优点和缺点。3.网络适配器的作用是什么?网络适配器工作在哪一层?4.数据链路层的三个基本问题(帧定界、透明传输和差错检测)为什么都必须加以解决？5.如果在数据链路层不进行帧定界，会发生什么问题？6.PPP协议的主要特点是什么？为什么PPP不使用帧的编号？PPP适用于什么情况？为什么PPP协议不_接收方收到链路层数据后,使用crc检验后,余数为0,说明链路层的传输时可靠传输

软件测试工程师移民加拿大_无证移民，未受过软件工程师的教育（第1部分）-程序员宅基地

文章浏览阅读587次。软件测试工程师移民加拿大无证移民，未受过软件工程师的教育(第1部分) (Undocumented Immigrant With No Education to Software Engineer(Part 1))Before I start, I want you to please bear with me on the way I write, I have very little gen...

随便推点

Thinkpad X250 secure boot failed 启动失败问题解决_安装完系统提示secureboot failure-程序员宅基地

文章浏览阅读304次。Thinkpad X250笔记本电脑，装的是FreeBSD，进入BIOS修改虚拟化配置（其后可能是误设置了安全开机），保存退出后系统无法启动，显示：secure boot failed ，把自己惊出一身冷汗，因为这台笔记本刚好还没开始做备份.....根据错误提示，到bios里面去找相关配置，在Security里面找到了Secure Boot选项，发现果然被设置为Enabled，将其修改为Disabled ，再开机，终于正常启动了。_安装完系统提示secureboot failure

C++如何做字符串分割（5种方法）_c++ 字符串分割-程序员宅基地

文章浏览阅读10w+次，点赞93次，收藏352次。1、用strtok函数进行字符串分割原型： char *strtok(char *str, const char *delim);功能：分解字符串为一组字符串。参数说明：str为要分解的字符串，delim为分隔符字符串。返回值：从str开头开始的一个个被分割的串。当没有被分割的串时则返回NULL。其它：strtok函数线程不安全，可以使用strtok_r替代。示例：//借助strtok实现split#include <string.h>#include <stdio.h&_c++ 字符串分割

2013第四届蓝桥杯 C/C++本科A组真题答案解析_2013年第四届c a组蓝桥杯省赛真题解答-程序员宅基地

文章浏览阅读2.3k次。1 .高斯日记大数学家高斯有个好习惯：无论如何都要记日记。他的日记有个与众不同的地方，他从不注明年月日，而是用一个整数代替，比如：4210后来人们知道，那个整数就是日期，它表示那一天是高斯出生后的第几天。这或许也是个好习惯，它时时刻刻提醒着主人：日子又过去一天，还有多少时光可以用于浪费呢？高斯出生于：1777年4月30日。在高斯发现的一个重要定理的日记_2013年第四届c a组蓝桥杯省赛真题解答

基于供需算法优化的核极限学习机(KELM)分类算法-程序员宅基地

文章浏览阅读851次，点赞17次，收藏22次。摘要：本文利用供需算法对核极限学习机(KELM)进行优化，并用于分类。

metasploitable2渗透测试_metasploitable2怎么进入-程序员宅基地

文章浏览阅读1.1k次。一、系统弱密码登录1、在kali上执行命令行telnet 192.168.26.1292、Login和password都输入msfadmin3、登录成功，进入系统4、测试如下：二、MySQL弱密码登录：1、在kali上执行mysql –h 192.168.26.129 –u root2、登录成功，进入MySQL系统3、测试效果：三、PostgreSQL弱密码登录1、在Kali上执行psql -h 192.168.26.129 –U post..._metasploitable2怎么进入

Python学习之路：从入门到精通的指南_python人工智能开发从入门到精通pdf-程序员宅基地

文章浏览阅读257次。本文将为初学者提供Python学习的详细指南，从Python的历史、基础语法和数据类型到面向对象编程、模块和库的使用。通过本文，您将能够掌握Python编程的核心概念，为今后的编程学习和实践打下坚实基础。_python人工智能开发从入门到精通pdf