NVIDIA Llama Nemotron 系列模型：關鍵技術解析

英伟达发布 LLama Nemotron系列模型，能够在推理模式和普通聊天模式之间动态切换，以适应不同的任务需求。

Diagram

Llama-Nemotron关键技术解读

Diagram

神经架构搜索（NAS）：

- 块级局部蒸馏：

从 Llama 3 指令模型出发，Puzzle 框架对每个替代子块进行独立并行训练，使其在保持父块功能的同时提高计算性能，如降低延迟、内存使用或提高吞吐量。

例如，对于 LN-Ultra 模型，从 Llama 3.1-405B-Instruct 模型开始，对每个替代子块进行训练，使其在保持父块功能的同时提高计算性能。

在训练过程中，每个替代块被训练成能够近似父块的功能，同时在计算性能上有所提升。

例如，一些块可能通过移除注意力机制来降低计算和 KV 缓存内存消耗，而另一些块可能通过调整前馈网络（FFN）的中间尺寸来实现不同程度的压缩。

- 混合整数规划（MIP）：

在构建了替代块库之后，Puzzle 框架利用混合整数规划求解器根据给定约束选择每层的最优块。

例如，对于 LN-Super 模型，约束条件包括在单个 NVIDIA H100 GPU 上实现至少 5 倍的吞吐量提升，并且在 FP8 精度下支持约 300K 缓存标记。

通过 MIP 求解器根据给定约束（如硬件兼容性、最大允许延迟、总内存预算或期望推理吞吐量）从块库中选择每层的最优块，构建完整的模型。

MIP 求解器通过优化目标函数，在满足约束条件的前提下，从块库中选择最优的块组合，构建完整的模型。

例如，对于 LN-Ultra 模型，最终模型在 8 个 H100 GPU 上实现了至少 1.5 倍的延迟降低，并且在 FP8 精度下支持高达 3M 缓存标记。

- FFN 融合：

对于 LN-Ultra 模型，引入 FFN 融合技术。在 Puzzle 移除部分注意力层后，模型中经常出现连续的 FFN 块。

例如，如果模型中有两个连续的 FFN 块，FFN 融合技术会将它们替换为一个更宽的 FFN 层，并且可以并行执行，从而减少序列步骤，提高计算利用率。

通过 FFN 融合，LN-Ultra 模型在推理延迟方面得到了显著改善，最终实现了 1.71 倍的延迟提升。

知识蒸馏与持续预训练：

- 知识蒸馏：

LN-Super 模型在 Distillation Mix 数据集上进行知识蒸馏训练，训练 40B 标记。

例如，通过将 LN-Super 模型的输出与教师模型的输出进行对比，调整 LN-Super 模型的参数，使其能够更好地近似教师模型的行为。

LN-Ultra 模型首先在 Distillation Mix 数据集上进行知识蒸馏训练，训练 65B 标记，然后继续在 Nemotron-H 阶段 4 预训练数据集上进行预训练，训练 88B 标记。

例如，在知识蒸馏阶段，LN-Ultra 模型通过学习教师模型的输出，逐步提升自身的性能；

在持续预训练阶段，模型进一步扩展其知识范围，最终在关键基准测试中超越了参考模型 Llama 3.1-405B-Instruct。

- 持续预训练：

LN-Ultra 在知识蒸馏后继续在 Nemotron-H 阶段 4 预训练数据集上进行预训练，进一步提升性能。

例如，LN-Ultra 模型在持续预训练阶段通过学习大量的未标记数据，扩展了其词汇表和语言模式，从而在推理任务中表现得更加出色。

监督微调（SFT）：

- 数据准备：

构建包含推理和非推理数据的混合数据集。

例如，在推理数据中，每个提示都包含“detailed thinking on”指令，模型需要输出详细的推理过程；

在非推理数据中，每个提示都包含“detailed thinking off”指令，模型需要输出简洁的回复。

对于推理数据，进一步细分为数学、编码、科学和通用领域。

例如，在数学领域，通过从 Art of Problem Solving（AoPS）社区论坛收集数学问题，并使用 DeepSeek-R1 和 Qwen2.5-Math-7BInstruct 等模型生成推理和非推理解决方案，然后通过过滤和验证步骤，确保数据的质量和正确性。

- 训练过程：

初始阶段专注于推理数据的训练

中间阶段引入非推理数据

最后阶段专注于聊天、指令遵循和工具调用的混合数据；

所有模型使用基于指令调整数据的逐标记交叉熵损失进行训练。

例如，在训练过程中，模型的输出与目标输出进行对比，通过计算交叉熵损失来调整模型的参数。

根据模型规模和需求，采用不同的学习率、序列长度和训练周期进行训练。

例如，LN-Nano 模型采用三阶段 SFT 流程：

LN-Super 模型在全数据集上进行单周期训练；

LN-Ultra 模型则采用更复杂的训练策略，包括线性热身和余弦衰减学习率调整，以确保训练的稳定性和收敛性。

大规模强化学习：

- 训练算法：

对于 LN-Ultra，采用 Group Relative Policy Optimization（GRPO）算法进行强化学习，以提升科学推理能力。

- 数据处理：

通过独立生成响应并计算通过率，筛选出通过率较低的提示，增加训练数据的难度。

同时，采用课程训练策略，根据预计算的通过率作为难度指标，动态调整每个批次的难度分布，使模型逐步学习从简单到复杂的任务。

- 奖励机制：

使用准确性奖励和格式奖励来引导模型学习。准确性奖励，通过判断模型生成的响应是否与真实答案匹配来给予奖励，确保模型能够准确回答问题；格式奖励，通过检查模型是否在推理模式下正确输出思考过程，并在非推理模式下避免输出思考标签，从而引导模型遵循正确的输出格式。

- 推理模式切换

通过轻量级系统提示“detailed thinking on/off”，实现推理模式和普通聊天模式之间的动态切换。

https://arxiv.org/pdf/2505.00949

https://huggingface.co/collections/nvidia/llama-nemotron-67d92346030a2691293f200b

NVIDIA Llama Nemotron 系列模型：關鍵技術解析

分享短網址