大模型sft微调参数优化2

博客园 - ExplorerMan

大模型RAG实战，从被骂不靠谱到成为部门MVP，这是我的踩坑全记录【转】推荐 Prompt 模板（大幅提升 JSON 质量）渐进式SFT内化 [推荐]双塔模型(介绍) Agno - 轻量级Python多智能体系统框架 Open WebUI：打造友好且强大的自托管 AI 平台【gradio】使用Gradio快速开发前端界面：基础知识文本切割方案进化概览：从“机械切割”到“智能解构” 大模型RAG的上下文压缩与过滤 SemanticChunker 语义相似拆分基于LangChain 实现 Advanced RAG-后检索优化(上)-Reranker 基于LangChain 实现 Advanced RAG-后检索优化(下)-上下文压缩与过滤多Agent协作入门：基于A2A协议的Agent通信（中） ollama部署与open-webui 0基础也能看懂！从0到1手把手教你本地部署大模型Ollama 什么是 AutoModel 大模型基础应用框架（ReACT\SFT\RAG）技术创新及零售业务落地应用 - ExplorerMan - 博客园多模态Embedding模型：从文本到多模态的全面选型指南！ rag 查询检索轮换

大模型sft微调参数优化2

ExplorerMan · 2026-04-14 · via 博客园 - ExplorerMan

根据最新研究，我为您整理了大模型SFT（监督微调）的参数设置与优化技巧：

一、核心超参数设置

1. 学习率（Learning Rate）

表格

微调方式	推荐范围	关键说明
SFT	1e-5 ~ 5e-5	最核心参数，数据量小用低值，数据量大用高值
LoRA SFT	2e-4	可使用更高学习率，配合Warmup-Stable-Decay调度
PPO/DPO	1e-6 ~ 3e-6	强化学习需更低学习率

调整技巧：

损失波动大 → 降低学习率
数据量小/样本相似度高 → 用 1e-5
数据量大/样本多样性高 → 用 5e-5

2. 批次大小（Batch Size）

推荐值：8-16（单机单卡）；32+（多卡/大显存）
显存不足：使用梯度累积（Gradient Accumulation），但注意它只解决内存问题，不加速训练

3. 训练轮次（Epochs）

表格

数据规模	推荐轮次
< 500条	2-3轮
500-2000条	3-5轮
> 1000条	5-8轮

关键：使用早停（Early Stopping）防止过拟合，监控验证集损失

二、优化器与正则化

优化器设置（AdamW）

表格

参数	推荐值	说明
weight_decay	0.01-0.05	过拟合严重提高到0.05
beta2	0.95	LLM训练推荐值
epsilon	1e-8	默认值

学习率调度器

推荐：余弦衰减（Cosine）或线性衰减（Linear）
LoRA推荐：Warmup-Stable-Decay，保持高学习率80%训练时间，最后骤降至10%

正则化

Dropout：0.1-0.2（小数据集用0.2）

三、LoRA特定参数（高效微调）

表格

参数	推荐值	说明
rank (r)	8-32	小任务8，复杂任务32
alpha	2×rank	通常设为rank的2倍
target_modules	q_proj, k_proj, v_proj, o_proj, gate_proj, up_proj, down_proj	覆盖注意力层和MLP层

实践建议：MIT/IBM研究

发现，大批量+低学习率组合在MMLU、MTBench等基准上表现更好。

四、快速参考模板

场景1：小数据集（<500条）+ SFT

Epochs: 2-3
Learning Rate: 1e-5
Batch Size: 8
Weight Decay: 0.01
Dropout: 0.2

场景2：中等数据集（500-2000条）+ SFT

Epochs: 3-5
Learning Rate: 3e-5
Batch Size: 16
Weight Decay: 0.03
Dropout: 0.15

场景3：LoRA高效微调（通用）

五、关键优化技巧

早停策略：验证集损失3次不下降即停止，节省计算资源
小模型试错：先用8B模型验证配置，再扩展到70B+
检查点保存：每50-100步保存，保留最佳模型而非最后模型
数据质量优先：50条高质量数据可能比1000条低质数据效果更好

六、常见问题诊断

表格

问题	原因	解决方案
欠拟合	学习率太低/轮次太少	提高LR至3e-5，增加轮次
过拟合	轮次太多/LR太高	减少轮次，降低LR，提高Dropout至0.2
训练不稳定	学习率过高	添加Warmup，启用梯度裁剪
显存不足	Batch Size太大	减小batch size，增加梯度累积步数

核心原则

：先用平台默认值跑通，再根据效果针对性调整1-2个参数，避免同时调整多个参数导致无法定位问题。

Batch Size 与Epochs 的关系，可以举例子比如100条记录的数据集。

我来详细解释 Batch Size 与 Epochs 的关系，并以 100条记录的数据集为例。

一、核心概念

表格

概念	定义	计算方式
Epoch	完整遍历一遍数据集	1 Epoch = 所有样本都参与训练一次
Batch Size	每次前向/反向传播处理的样本数	每步训练消耗的样本数
Step（迭代步数）	参数更新的次数	Step = (数据总量 × Epochs) / Batch Size

二、100条数据集的具体例子

假设你有 100条训练数据，不同 Batch Size 和 Epochs 的组合：

组合1：Batch Size = 10，Epochs = 3

表格

指标	计算	结果
每Epoch步数	100 ÷ 10	10步
总训练步数	10步 × 3	30步
每步处理样本	-	10条
参数更新次数	-	30次

训练过程：

Epoch 1: 样本0-9 → 10-19 → 20-29 → ... → 90-99（10步）
Epoch 2: 重复上述过程
Epoch 3: 重复上述过程

组合2：Batch Size = 20，Epochs = 3

表格

指标	计算	结果
每Epoch步数	100 ÷ 20	5步
总训练步数	5步 × 3	15步
参数更新次数	-	15次

对比组合1：

✅ 显存占用更高（一次处理20条 vs 10条）
❌ 参数更新次数减半（15次 vs 30次）
❌ 梯度估计噪声更大（样本平均数少）

组合3：Batch Size = 5，Epochs = 3

表格

指标	计算	结果
每Epoch步数	100 ÷ 5	20步
总训练步数	20步 × 3	60步
参数更新次数	-	60次

对比组合1：

✅ 参数更新更频繁，收敛更精细
❌ 训练时间更长（更多前向/反向传播）
❌ 梯度估计更稳定但计算开销大

组合4：Batch Size = 10，Epochs = 6（对比组合1）

表格

指标	计算	结果
每Epoch步数	100 ÷ 10	10步
总训练步数	10步 × 6	60步
参数更新次数	-	60次

与组合1（BS=10, Epoch=3）对比：

相同Batch Size，但多跑一倍Epochs
总计算量翻倍，模型见过数据次数翻倍
⚠️ 风险：100条数据太少，6 Epochs容易过拟合！

三、关键关系总结

总训练步数 = (数据集大小 × Epochs) / Batch Size

表格

调整方式	对训练的影响	适用场景
↑ Batch Size	每步看更多样本，梯度更准，但更新次数少	大显存、大数据集
↓ Batch Size	更新频繁，噪声大但可能跳出局部最优	小显存、需要精细调优
↑ Epochs	模型反复学习同一数据，容易过拟合	数据量大、难收敛
↓ Epochs	防止过拟合，但可能欠拟合	小数据集（如100条）

四、100条数据的实战建议

对于只有100条数据的情况：

❌ 不推荐

Epochs > 3：极易过拟合，模型记住答案而非学习规律
Batch Size = 1（SGD）：梯度噪声太大，训练不稳定
Batch Size = 100（全批量）：更新次数只有1步/Epoch，学习不充分

✅ 推荐配置

# 配置A：保守型（推荐）
Batch Size: 8-10
Epochs: 2-3
Gradient Accumulation: 2

关键技巧

早停（Early Stopping）：监控验证集损失，连续2 Epochs不下降就停
学习率调度：100条数据用 1e-5，配合Warmup（10% Steps）
数据增强：100条太少，建议通过改写、扩写增加到300-500条
LoRA微调：比全参数更适合小数据，Rank=8即可

五、可视化对比

100条数据，不同配置的总计算量：

BS=10, Epoch=3:  ████████████████████████████████  30步（推荐）
BS=20, Epoch=3:  ████████████████                  15步（更新太少）
BS=5,  Epoch=3:  ████████████████████████████████████████████████████████  60步（计算量大）
BS=10, Epoch=6:  ████████████████████████████████████████████████████████  60步（易过拟合）

核心原则：小数据（100条）要控制Epochs ≤ 3，用中等Batch Size（8-16）平衡计算效率和梯度稳定性。

Warmup：设置为总步数的10%，稳定初期训练 Dropout：0.1-0.2（小数据集用0.2） rank alpha 这四个我没理解详细介绍

我来详细解释这四个参数，用通俗的方式帮你理解它们的作用和设置逻辑。

一、Warmup（预热）

什么是Warmup？

训练刚开始时，学习率从0慢慢爬升到目标值的过程，而不是一开始就猛冲。

为什么要Warmup？

想象你刚睡醒就让去跑百米冲刺——容易抽筋。模型也一样：

表格

阶段	状态	学习率
冷启动	参数随机初始化，对数据完全陌生	低（Warmup）
稳定期	找到大致方向	高（正常训练）
收敛期	接近最优解	低（Decay）

计算示例

总训练步数：100步
Warmup比例：10%
Warmup步数：100 × 10% = 10步

学习率变化：
第1步：  0.000001  (1e-6)
第5步：  0.000005  (5e-6)
第10步： 0.00001   (1e-5) ← 达到目标学习率
第11步起：保持1e-5训练，后续再衰减

代码示意

# 伪代码
if current_step < warmup_steps:
    lr = target_lr * (current_step / warmup_steps)

二、Dropout（随机失活）

什么是Dropout？

训练时随机"关掉"一部分神经元（将其输出置0），迫使模型不依赖特定路径，增强泛化能力。

正常网络：        带Dropout的训练：
  ○ → ○ → ○        ○ → ○ → ○
  ↓   ↓   ↓        ↓   ✕   ↓   ← 这个神经元被"屏蔽"了
  ○ → ○ → ○        ○ → ○ → ○

为什么小数据集用更高的Dropout（0.2）？

表格

数据集大小	Dropout	原因
100条（小）	0.2	数据少，模型容易死记硬背，需要更强的正则化防止过拟合
10,000条（中）	0.1	数据充足，适度正则化即可
100万条（大）	0.05-0.1	数据极大，模型需要充分学习，Dropout可很小甚至不用

实际效果对比

小数据+Dropout=0：  训练准确率95% → 测试准确率60%（严重过拟合）
小数据+Dropout=0.2：训练准确率85% → 测试准确率75%（泛化更好）

三、Rank（r）— LoRA的核心参数

什么是Rank？

LoRA（低秩适配）中，原始权重矩阵的"压缩维度"。

直观理解

假设原始权重矩阵是 1000×1000 = 1,000,000 个参数：

原始全量微调：直接改这100万个参数

LoRA微调：只训练两个小矩阵 A 和 B
          A: 1000 × r
          B: r × 1000
          总参数量：2 × 1000 × r
          
当 r=8 时：只训练 16,000 参数（节省98.4%）
当 r=32 时：只训练 64,000 参数（节省93.6%）

Rank的选择逻辑

表格

Rank	可训练参数	表达能力	适用场景
r=4	极少	弱	简单任务（情感分类）
r=8	少	中等	通用推荐，显存紧张
r=16	中等	较强	复杂指令跟随
r=32	较多	强	多任务、需要精细调整
r=64+	很多	很强	接近全量微调，失去LoRA意义

关键公式

LoRA新增参数量 = 2 × r × (d_model + d_model) = 4 × r × d_model
# 简化理解：Rank越大，可学习的"自由度"越高

四、Alpha（α）— LoRA的缩放系数

什么是Alpha？

控制LoRA更新对原始模型的影响强度。

数学关系

实际缩放系数 = Alpha / Rank

输出 = 原始权重输出 + (Alpha/Rank) × LoRA(A×B)输出

为什么通常设 Alpha = 2×Rank？

表格

Alpha/Rank	效果	类比
α=16, r=8 (2倍)	推荐配置，平衡新旧知识	新员工提建议，老板听一半
α=8, r=8 (1倍)	LoRA影响弱，模型变化小	新员工建议被当参考
α=32, r=8 (4倍)	LoRA影响强，容易过拟合	新员工直接指挥工作

具体例子

# 配置1：保守型
r = 8
alpha = 16

五、四者协同关系图

训练流程中的配合：

[开始训练]
    ↓
Warmup（前10%步数）：学习率从0→1e-5，让模型"热身"
    ↓
[每步训练]
    ↓
Dropout（随机屏蔽20%神经元）：防止过拟合，增强泛化
    ↓
Rank=16 + Alpha=32（LoRA层）：用3%参数高效学习新任务
    ↓
[重复直到收敛]

六、100条数据的推荐配置

# 完整配置示例
learning_rate: 1e-5

七、一句话总结

表格

参数	一句话理解	调大/调小影响
Warmup	训练前"热身"，防止起步过猛	比例高→起步更稳但更慢
Dropout	随机"失忆"，防止死记硬背	大→泛化强但难收敛
Rank	LoRA的"脑容量"	大→学得更细但更费显存
Alpha	新知识的"音量"	大→新任务影响强，易覆盖旧知识

【六、100条数据的推荐配置】这个例子很好，帮我再写1千条、1万条、10万条的推荐配置。

好的，以下是针对不同数据规模的推荐配置，从 1千条、1万条到10万条：

一、1千条数据（Small Scale）

特点：数据量适中，但仍需谨慎防止过拟合

# 基础训练
learning_rate: 2e-5

二、1万条数据（Medium Scale）

特点：数据充足，可更充分训练，降低正则化强度

# 基础训练
learning_rate: 3e-5

三、10万条数据（Large Scale）

特点：大数据量，接近预训练规模，可激进训练

# 基础训练
learning_rate: 5e-5

四、四规模对比总表

表格

参数	100条	1千条	1万条	10万条
Epochs	2	3	2-3	1-2
Learning Rate	1e-5	2e-5	3e-5	5e-5 (LoRA) / 1e-5 (全量)
Warmup Ratio	10%	5%	3%	1%
Batch Size	8	16	32	64
Dropout	0.2	0.15	0.1	0.05/0
LoRA Rank	8	16	32	64 (或全量)
LoRA Alpha	16	32	64	128
Target Modules	q,v	q,k,v,o	全注意力+部分MLP	全部层
正则化强度	🔴 强	🟡 中	🟢 弱	⚪ 极弱/无

五、核心规律总结

数据量 ↑  =  学习率 ↑  +  Epochs ↓  +  正则化 ↓  +  Rank ↑

表格

趋势	原因
学习率提高	数据多，梯度估计准，可以迈更大步
轮次减少	数据多，一遍就能学够，多轮反而过拟合
正则化减弱	数据本身就是最好的正则化，不需要人为限制
Rank增大	复杂数据需要更多参数捕捉模式
Batch Size增大	硬件允许下，大批量训练更快更稳定

六、快速选择决策树

数据量多少？
    │
    ├── < 500条 → 用100条配置，考虑数据增强到1千条
    │
    ├── 500-2千条 → 用1千条配置，保守训练
    │
    ├── 2千-5千条 → 1千条和1万条之间插值
    │
    ├── 5千-3万条 → 用1万条配置
    │
    ├── 3万-10万条 → 用10万条LoRA配置
    │
    └── > 10万条 → 考虑全量微调（Full SFT）或继续增大Rank

正则化（Regularization）就是给模型加"紧箍咒"，防止它死记硬背（过拟合）。

一、核心问题：过拟合

什么是过拟合？

模型像"书呆子"——背下了所有答案，但没学会规律。

训练数据（带噪声）：
问题：1+1=？ 答案：2（正确）
问题：2+2=？ 答案：5（标注错误/噪声）

不过拟合的模型：学会"加法规则" → 遇到 3+3=6 ✓
过拟合的模型：  背下"2+2=5" → 遇到 3+3，乱猜 ✗

在LLM中表现为：

训练时：对训练集回答完美（损失=0.001）
测试时：对没见过的问题胡言乱语（损失=3.5）

二、正则化的原理

核心思想

"模型越简单，泛化能力越强"

限制模型参数的大小或数量，迫使它学习通用规律而非特殊细节。

类比理解

表格

场景	不加正则化	加正则化
学生考试	背下100道例题的答案	掌握解题公式，例题做80分但新题会做
奥运会	吃兴奋剂（短期爆发，长期伤身）	正常训练（可持续）
画画	把每根头发丝都描出来（像照片）	抓主要特征（像漫画，一看就懂）

三、大模型SFT中的三种正则化

1. L2正则化（Weight Decay）

原理：惩罚大的权重值，让参数接近0

损失函数 = 预测误差 + λ × Σ(权重²)

效果：权重太大 → 损失变大 → 被迫变小

直观：像弹簧，把参数往0拉，不让某个特征"一家独大"。

配置中的体现：

weight_decay: 0.01  # λ=0.01，轻微惩罚
weight_decay: 0.1

2. Dropout（随机失活）

原理：训练时随机"屏蔽"部分神经元

正常训练：所有神经元都参与 → 某些神经元偷懒，依赖其他神经元
Dropout：随机关20%神经元 → 每个神经元必须独当一面

效果：强制冗余学习，不会把"鸡蛋放一个篮子里"。

配置中的体现：

dropout: 0.2  # 每次训练随机扔掉20%的神经元

3. Early Stopping（早停）

原理：在过拟合开始前停止训练

训练过程：
Epoch 1: 训练损失↓ 验证损失↓（在学）
Epoch 2: 训练损失↓ 验证损失↓（继续学）
Epoch 3: 训练损失↓ 验证损失↑（开始死记硬背了！）← 在这里停

配置中的体现：

early_stopping_patience: 2  # 验证损失2轮不下降就停

四、数据量与正则化的关系

表格

数据量	过拟合风险	正则化强度	原因
100条	🔴 极高	强 (Dropout=0.2, WD=0.05)	数据少，模型容易背答案
1千条	🟡 中等	中 (Dropout=0.15, WD=0.03)	有一定样本，但仍需约束
1万条	🟢 较低	弱 (Dropout=0.1, WD=0.01)	数据本身就是正则化
10万条	⚪ 极低	无 (Dropout=0, WD=0.005)	大数据下，复杂模型不会过拟合

一句话总结：

数据越少，越要"捆住"模型的手脚；数据越多，越要让模型自由发挥。

我有1.2万条样本，epoch、batch_size、learning_rate、warmup_step_rate 设置多少合适，并说明原因

根据1.2万条样本的规模，以下是推荐配置及详细原因：

逐参数说明

1. Epochs = 2

表格

原因	说明
数据充足	1.2万条已接近中等规模，1轮能学大部分知识
防过拟合	大模型SFT通常2-3轮即可，第3轮收益递减
效率优先	第3轮增加的计算量 vs 性能提升不成正比

经验：1万+数据时，Epoch=2是甜点，Epoch=3可尝试但需早停监控。

2. Batch Size = 32

表格

原因	说明
梯度稳定性	32条样本的平均梯度噪声低，收敛更稳
硬件友好	单卡A100/H100可承载，多卡可扩展到64+
速度平衡	相比BS=16，总步数减半（750 vs 1500），训练更快

对比：

BS=16：步数=1500，更新频繁但慢
BS=32：步数=750，更新少但每次更准 ← 推荐
BS=64：需多卡或梯度累积，可尝试但收益边际递减

3. Learning Rate = 3e-5

表格

原因	说明
数据匹配	1万条级别用2e-5~3e-5，1.2万取上限
LoRA适配	若用LoRA（r=32），3e-5能有效更新低秩矩阵
全量微调	若全量SFT，建议降至1e-5

决策：

LoRA微调  →  3e-5（高Rank需要稍高LR驱动）
全量微调  →  1e-5（参数多，步要小防震荡）

4. Warmup Ratio = 3%（约50步）

表格

原因	说明
快速进入状态	1.2万条数据量大，模型"热身"快，无需10%
计算效率	3%≈22步，实际可设50步（向上取整更稳）
避免浪费	10%需75步预热，对大数据是浪费

建议：

# 保守设置（推荐）
warmup_steps: 50

完整配置对比

表格

配置项	保守型	推荐型	激进型
Epochs	2	2	3（+早停）
Batch Size	16	32	64
Learning Rate	2e-5	3e-5	5e-5
Warmup	5% (75步)	3% (~50步)	1% (23步)
Dropout	0.15	0.1	0.05
LoRA Rank	16	32	64

关键监控指标

训练时关注：

# 理想曲线
Step 0-50:   损失快速下降（Warmup+快速学习）
Step 50-400: 损失平稳下降（主力学习期）
Step 400-750:损失缓慢下降（收敛期）

一句话总结

1.2万条数据 = 2轮快速扫完 + 大批量稳梯度 + 中高频学习率 + 短预热速启动，核心是效率与稳定兼顾，既不浪费数据，也不训练过度。

针对 1.2万条样本，LoRA Rank 和 Alpha 的推荐配置及原因：

详细说明

1. Rank = 32（推荐）

表格

维度	说明
数据匹配	1.2万条足够支撑32个自由度的学习，不会浪费数据
表达能力	能捕捉中等复杂度的任务模式（指令跟随、风格转换）
计算效率	相比Rank=64，参数量减半，训练速度提升30-50%
硬件友好	单卡A100可轻松承载，显存占用增加约200MB

对比选择：

表格

Rank	新增参数量	适用场景	1.2万条是否合适
8	极少	极简单任务（二分类）	❌ 浪费数据
16	少	简单任务、显存紧张	⚠️ 可用但偏保守
32	中等	通用推荐、复杂指令	✅ 甜点选择
64	多	多任务、接近全量微调	⚠️ 可尝试但收益边际递减
128+	很多	特殊需求	❌ 没必要，不如全量微调

2. Alpha = 64（2 × Rank）

表格

设置	效果	原因
Alpha = 2R	推荐	平衡新旧知识，LoRA输出缩放系数=2
Alpha = R	保守	缩放系数=1，新任务影响弱
Alpha = 4R	激进	缩放系数=4，易覆盖预训练知识

计算公式：

实际影响强度 = Alpha / Rank = 64 / 32 = 2

输出 = 原模型输出 + 2 × LoRA(A×B)输出

为什么不是其他组合？

❌ Rank=8, Alpha=16

问题：表达能力太弱
结果：1.2万条数据的信息无法充分学习，欠拟合
类比：用小学笔记本记大学课程，记不下

❌ Rank=64, Alpha=128

问题：参数量接近全量微调的10%，但表达能力冗余
结果：训练慢、显存占用高，性能提升不明显
类比：用大炮打蚊子，浪费火力

❌ Rank=32, Alpha=32（1倍关系）

问题：影响强度=1，LoRA层"声音太小"
结果：模型变化微弱，2轮Epoch学不够
类比：新员工提建议，老板只听10%

✅ Rank=32, Alpha=64（2倍关系）

优势：表达能力足够 + 影响强度适中
结果：充分利用1.2万条数据，2轮Epoch即可收敛
类比：新员工成为核心骨干，既发挥能力又不喧宾夺主

可视化对比

1.2万条数据 + 2 Epochs 的学习效果：

Rank=8:   ████████░░░░░░░░░░░░  学不完，欠拟合
Rank=16:  ██████████████░░░░░░  基本够用，略保守
Rank=32:  ██████████████████░░  ✅ 充分学习，最佳平衡
Rank=64:  ████████████████████  能学更多，但2轮用不完
          ↑ 你的数据量在这里

快速决策表

表格

你的情况	Rank	Alpha	原因
显存 < 24G	16	32	省显存，1.2万条仍够用
标准配置	32	64	甜点组合，推荐
任务极复杂（多轮对话+工具调用）	64	128	需要更强表达能力
追求极致速度	16	32 + Epoch=1	快速验证，后续可再训

一句话总结

1.2万条数据配Rank=32是"黄金比例"——数据喂得饱，参数不浪费，Alpha=64保证LoRA层有足够"话语权"在2轮内完成任务学习。

此内容由惯性聚合(RSS阅读器)自动聚合整理，仅供阅读参考。原文来自 — 版权归原作者所有。

推荐订阅源

博客园 - ExplorerMan

一、核心超参数设置

1. 学习率（Learning Rate）

2. 批次大小（Batch Size）

3. 训练轮次（Epochs）

二、优化器与正则化

优化器设置（AdamW）

学习率调度器

正则化

三、LoRA特定参数（高效微调）

四、快速参考模板

场景1：小数据集（<500条）+ SFT

场景2：中等数据集（500-2000条）+ SFT

场景3：LoRA高效微调（通用）

五、关键优化技巧

六、常见问题诊断

一、核心概念

二、100条数据集的具体例子

组合1：Batch Size = 10，Epochs = 3

组合2：Batch Size = 20，Epochs = 3

组合3：Batch Size = 5，Epochs = 3

组合4：Batch Size = 10，Epochs = 6（对比组合1）

三、关键关系总结

四、100条数据的实战建议

❌ 不推荐

✅ 推荐配置

关键技巧

五、可视化对比

一、Warmup（预热）

什么是Warmup？

为什么要Warmup？

计算示例

代码示意

二、Dropout（随机失活）

什么是Dropout？

为什么小数据集用更高的Dropout（0.2）？

实际效果对比

三、Rank（r）— LoRA的核心参数

什么是Rank？

直观理解

Rank的选择逻辑

关键公式

四、Alpha（α）— LoRA的缩放系数

什么是Alpha？

数学关系

为什么通常设 Alpha = 2×Rank？

具体例子

五、四者协同关系图

六、100条数据的推荐配置

七、一句话总结

一、1千条数据（Small Scale）

二、1万条数据（Medium Scale）

三、10万条数据（Large Scale）

四、四规模对比总表

五、核心规律总结

六、快速选择决策树

一、核心问题：过拟合

什么是过拟合？

二、正则化的原理

核心思想

类比理解

三、大模型SFT中的三种正则化

1. L2正则化（Weight Decay）

2. Dropout（随机失活）

3. Early Stopping（早停）

四、数据量与正则化的关系

推荐配置

逐参数说明

1. Epochs = 2

2. Batch Size = 32

3. Learning Rate = 3e-5

4. Warmup Ratio = 3%（约50步）

完整配置对比

关键监控指标

一句话总结

推荐配置

详细说明

1. Rank = 32（推荐）

2. Alpha = 64（2 × Rank）