Unsloth 联手 NVIDIA 优化 LLM 微调：训练速度提升 25%，内存几乎不变

Unsloth 与 NVIDIA 合作团队在 LLM 微调中发现并修复了三个隐藏的性能瓶颈：缓存打包序列元数据、双缓冲梯度检查点和 MoE 路由优化。实测训练速度提升 14%~25%，内存在大多数场景下只增加 0.2~0.5 GB。

核心结论

2026 年 5 月 6 日，Unsloth 发布与 NVIDIA 的联合优化公告。双方团队聚焦于 LLM 微调中容易被忽视的「隐藏瓶颈」——不是矩阵乘法或注意力机制这类公认的计算热点，而是打包序列元数据重建、梯度检查点序列化和 MoE 路由冗余计算这三类「元信息开销」。

当开发者优化微调性能时，通常会优先关注矩阵乘法、注意力机制（Attention）、融合算子（Fused Ops）和分组 GEMM 等高影响计算核。但 Unsloth 和 NVIDIA 的工程师发现：当这些主流计算得到充分优化后，另一类不同的瓶颈开始浮现——GPU 在元数据依赖工作上停滞。

具体表现为三类模式：

当多个短序列被打包成一个长序列进行训练时，模型需要知道每个原始序列的起始和结束位置。这会产生一组元数据：序列长度、累积偏移量、最大序列长度和注意力掩码结构。

关键洞察：对于一个固定的打包批次，这些元数据在每一层都是一样的。如果模型有 L 层，传统做法在每层都重建这些信息——做了 L 次相同的工作。

Unsloth 的做法是缓存当前批次的打包元数据，跨层复用。实测在 Qwen3-14B QLoRA SFT 上：

缓存的核心收益在于：移除了热路径上的重复协调工作。前向传播收益最大，因为这是元数据重复消费最密集的阶段。

标准的激活检查点（Activation Checkpointing）通过不保存所有中间激活来节省显存。但问题在于缺省模式下的数据流：从 CPU 复制激活到 GPU → 等待复制完成 → 在该激活上执行反向计算 → 启动下一层复制。

Unsloth 引入双缓冲机制：当后向传播在缓冲区 A 上运行时，复制流可以预加载下一个激活到缓冲区 B。这样复制和计算并行进行，而非串行等待。

实测在 NVIDIA B200 Blackwell GPU 上：

收益逻辑：模型越大、隐藏维度越高，数据移动量越大，隐藏复制延迟的效果越显著。

Double buffer gradient checkpointing diagram

MoE（混合专家）模型的路由操作——决定哪些 token 被送到哪个专家——采用 argsort + bincount 分组策略。之前每层都重新执行完整的路由计算和数据重排。

优化后，通过一次 argsort 将 token 分组，之后各层直接复用分组结果，避免重复计算。这项优化对 MoE 架构（如 DeepSeek MoE、Mixtral）的影响最为显著。

如果你已经在使用 Unsloth 做 LLM 微调，以上优化完全自动生效——升级到最新版本即可，不需要修改任何训练代码。如果你是 Unsloth 新手，这是入坑的好时机：

正文中出现的 Unsloth、NVIDIA、DeepSeek、Claude Code、MoE 等词条由平台侧自动匹配已维护 tools 库，生成 tool_mentions 悬浮卡。