大模型增量预训练新技巧：解决灾难性遗忘

大家好，目前不少开源模型在通用领域具有不错的效果，但由于缺乏领域数据，往往在一些垂直领域中表现不理想，这时就需要增量预训练和微调等方法来提高模型的领域能力。

但在领域数据增量预训练或微调时，很容易出现灾难性遗忘现象，也就是学会了垂直领域知识，但忘记了通用领域知识，之前介绍过增量预训练以及领域大模型训练技巧。

今天给大家带来一篇增量预训练方法-Llama-Pro，对LLMs进行Transformer块扩展后，增量预训练过程中仅对新增块进行训练，有效地进行模型知识注入，并且极大程度地避免灾难性遗忘。

LLaMA Pro: Progressive LLaMA with Block Expansion

LLaMA Pro: Progressive LLaMA with Block Expansion
Paper: https://arxiv.org/abs/2401.02415
Github: https://github.com/TencentARC/LLaMA-Pro

文章目录

- 技术交流群
- 用通俗易懂方式讲解系列
- 块扩展方法
- 实验细节
- 讨论分析
- 写在最后

技术交流群

前沿技术资讯、算法交流、求职内推、算法竞赛、面试交流(校招、社招、实习)等、与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企开发者互动交流~

我们建了大模型面试与技术交流群，想要进交流群、需要源码&资料、提升技术的同学，可以直接加微信号：mlc2060。加的时候备注一下：研究方向 +学校/公司+CSDN，即可。然后就可以拉你进群了。

方式①、微信搜索公众号：机器学习社区，后台回复：加群
方式②、添加微信号：mlc2060，备注：技术交流

资料1
在这里插入图片描述

用通俗易懂方式讲解系列

用通俗易懂的方式讲解：自然语言处理初学者指南（附1000页的PPT讲解）
用通俗易懂的方式讲解：1.6万字全面掌握 BERT
用通俗易懂的方式讲解：NLP 这样学习才是正确路线
用通俗易懂的方式讲解：28张图全解深度学习知识！
用通俗易懂的方式讲解：不用再找了，这就是 NLP 方向最全面试题库
用通俗易懂的方式讲解：实体关系抽取入门教程
用通俗易懂的方式讲解：灵魂 20 问帮你彻底搞定Transformer
用通俗易懂的方式讲解：图解 Transformer 架构
用通俗易懂的方式讲解：大模型算法面经指南（附答案）
用通俗易懂的方式讲解：十分钟部署清华 ChatGLM-6B，实测效果超预期
用通俗易懂的方式讲解：内容讲解+代码案例，轻松掌握大模型应用框架 LangChain
用通俗易懂的方式讲解：如何用大语言模型构建一个知识问答系统
用通俗易懂的方式讲解：最全的大模型 RAG 技术概览
用通俗易懂的方式讲解：利用 LangChain 和 Neo4j 向量索引，构建一个RAG应用程序
用通俗易懂的方式讲解：使用 Neo4j 和 LangChain 集成非结构化知识图增强 QA
用通俗易懂的方式讲解：面了 5 家知名企业的NLP算法岗(大模型方向)，被考倒了。。。。。
用通俗易懂的方式讲解：NLP 算法实习岗，对我后续找工作太重要了！。
用通俗易懂的方式讲解：理想汽车大模型算法工程师面试，被问的瑟瑟发抖。。。。
用通俗易懂的方式讲解：基于 Langchain-Chatchat，我搭建了一个本地知识库问答系统
面试了字节大模型算法岗(实习)，快被问哭了。。。。

块扩展方法

块扩展，顾名思义，就是在原始模型中每个Transformer块或者某几个Transformer块后增加一个Transformer块，但为了保持扩展后的模型输出保持不变，需要增加的块为恒等块（输入输出相同），如下图所示。

在构建恒等块过程中，主要是将多头注意力层和FFN层中的最后一个线性层（Linear）权重置为0变成Zero-Linear，即可保持经过该块的输入输出一致。

PS：论文附录A中写了大段的推导公式来证明，在此不做过多介绍。

块的增加方式是，对原始模型的个Transformer块分成组，每组中包含个Transformer块，对于每组后添加个恒等块。代码实现具体如下：

model = AutoModelForCausalLM.from_pretrained(model_path, torch_dtype=torch.float16)
ckpt = model.state_dict()

# original_layers是模型原始层数，layers是模型最后达到层数
split = int(original_layers / (layers - original_layers))

layer_cnt = 0

output = {}
for i in range(original_layers):
    for k in ckpt:
        if ('layers.' + str(i) + '.') in k:
            output[k.replace(('layers.' + str(i) + '.'), ('layers.' + str(layer_cnt) + '.'))] = ckpt[k]
    layer_cnt += 1
    if (i+1) % split == 0:
        for k in ckpt:
            if ('layers.' + str(i) + '.') in k:
                if 'down_proj' in k or 'o_proj' in k:
                    output[k.replace(('layers.' + str(i) + '.'), ('layers.' + str(layer_cnt) + '.'))] = torch.zeros_like(ckpt[k])
                else:
                    output[k.replace(('layers.' + str(i) + '.'), ('layers.' + str(layer_cnt) + '.'))] = ckpt[k]
        layer_cnt += 1
    
assert layer_cnt==layers
for k in ckpt:
    if not 'layers' in k:
        output[k] = ckpt[k]

torch.save(output, output_path)