LLM - Training PipLine

Tue, 21 Jan 2025 00:00:00 +0000

大模型工作流程

预训练、有监督微调、RLHF(奖励建模、强化学习训练)和DPO(直接偏好优化)的主要流程图如下图所示:

下面会分开介绍, 每个流程训练时, 所处理的数据, 以及loss等核心模块做了什么.

PT

数据

数据格式要求: 清洗过的大段连续文本即可, 如txt.

1第一章论
2传染病是指由病原微生物，如朊粒、病毒、衣原体、立克次体、支原体（mycoplasma)细菌真菌、螺旋体和寄生虫，如原虫、蠕虫、医学昆虫感染人体后产生的有传染性、在一定条件下可造成流行的疾病。感染性疾病是指由病原体感染所致的疾病，包括传染病和非传染性感染性疾病。
3传染病学是一门研究各种传染病在人体内外发生、发展、传播、诊断、治疗和预防规律的学科。重点研究各种传染病的发病机制、临床表现、诊断和治疗方法，同时兼顾流行病学和预防措施的研究，做到防治结合。
4传染病学与其他学科有密切联系，其基础学科和相关学科包括病原生物学、分子生物学、免疫学、人体寄生虫学、流行病学、病理学、药理学和诊断学等。掌握这些学科的基本知识、基本理论和基本技能对学好传染病学起着非常重要的作用。
5...

将文本全部拼接, 并按照 block_size = 1024进行分割. 将数据集最终处理成如下格式.

1训练数据集
2{
3 'input_ids': [116947, 67831, 114393, 104442, 67071, ..., 33108, 101304, 100178, 100645], # 1024长度
4 'attention_mask': [1, 1, 1, 1, 1, ..., 1, 1, 1, 1], # 1024长度
5 'labels': [116947, 67831, 114393, 104442, 67071, ..., 33108, 101304, 100178, 100645] # 1024长度
6}

其中:
input_ids: 字典对应的token, 训练时会根据其id在embedding层中找到其对应的权重.
attention_mask: 1表示该token是会被关注的信息, 0表示不关注. 在计算注意力分数softmax时，attention_mask为0的值将为0, 因此其他的信息会获得更多的关注.
labels: 用于预测时, 计算loss.

GRPO on MakiNaruto's Blog

LLM - Training PipLine

大模型工作流程

PT

数据