NVIDIA Llama Nemotron 系列模型:關鍵技術解析

英伟达发布 LLama Nemotron系列模型,能够在推理模式和普通聊天模式之间动态切换,以适应不同的任务需求。

Diagram

Diagram

Diagram

Llama-Nemotron关键技术解读

Diagram

神经架构搜索(NAS):

- 块级局部蒸馏:

从 Llama 3 指令模型出发,Puzzle 框架对每个替代子块进行独立并行训练,使其在保持父块功能的同时提高计算性能,如降低延迟、内存使用或提高吞吐量。

例如,对于 LN-Ultra 模型,从 Llama 3.1-405B-Instruct 模型开始,对每个替代子块进行训练,使其在保持父块功能的同时提高计算性能。

在训练过程中,每个替代块被训练成能够近似父块的功能,同时在计算性能上有所提升。

例如,一些块可能通过移除注意力机制来降低计算和 KV 缓存内存消耗,而另一些块可能通过调整前馈网络(FFN)的中间尺寸来实现不同程度的压缩。

- 混合整数规划(MIP):

在构建了替代块库之后,Puzzle 框架利用混合整数规划求解器根据给定约束选择每层的最优块。

例如,对于 LN-Super 模型,约束条件包括在单个 NVIDIA H100 GPU 上实现至少 5 倍的吞吐量提升,并且在 FP8 精度下支持约 300K 缓存标记。

通过 MIP 求解器根据给定约束(如硬件兼容性、最大允许延迟、总内存预算或期望推理吞吐量)从块库中选择每层的最优块,构建完整的模型。

MIP 求解器通过优化目标函数,在满足约束条件的前提下,从块库中选择最优的块组合,构建完整的模型。

例如,对于 LN-Ultra 模型,最终模型在 8 个 H100 GPU 上实现了至少 1.5 倍的延迟降低,并且在 FP8 精度下支持高达 3M 缓存标记。

- FFN 融合:

对于 LN-Ultra 模型,引入 FFN 融合技术。在 Puzzle 移除部分注意力层后,模型中经常出现连续的 FFN 块。

例如,如果模型中有两个连续的 FFN 块,FFN 融合技术会将它们替换为一个更宽的 FFN 层,并且可以并行执行,从而减少序列步骤,提高计算利用率。

通过 FFN 融合,LN-Ultra 模型在推理延迟方面得到了显著改善,最终实现了 1.71 倍的延迟提升。

知识蒸馏与持续预训练:

- 知识蒸馏:

LN-Super 模型在 Distillation Mix 数据集上进行知识蒸馏训练,训练 40B 标记。

例如,通过将 LN-Super 模型的输出与教师模型的输出进行对比,调整 LN-Super 模型的参数,使其能够更好地近似教师模型的行为。

LN-Ultra 模型首先在 Distillation Mix 数据集上进行知识蒸馏训练,训练 65B 标记,然后继续在 Nemotron-H 阶段 4 预训练数据集上进行预训练,训练 88B 标记。

例如,在知识蒸馏阶段,LN-Ultra 模型通过学习教师模型的输出,逐步提升自身的性能;

在持续预训练阶段,模型进一步扩展其知识范围,最终在关键基准测试中超越了参考模型 Llama 3.1-405B-Instruct。

- 持续预训练:

LN-Ultra 在知识蒸馏后继续在 Nemotron-H 阶段 4 预训练数据集上进行预训练,进一步提升性能。

例如,LN-Ultra 模型在持续预训练阶段通过学习大量的未标记数据,扩展了其词汇表和语言模式,从而在推理任务中表现得更加出色。

监督微调(SFT):

- 数据准备:

构建包含推理和非推理数据的混合数据集。

例如,在推理数据中,每个提示都包含“detailed thinking on”指令,模型需要输出详细的推理过程;

在非推理数据中,每个提示都包含“detailed thinking off”指令,模型需要输出简洁的回复。

对于推理数据,进一步细分为数学、编码、科学和通用领域。

例如,在数学领域,通过从 Art of Problem Solving(AoPS)社区论坛收集数学问题,并使用 DeepSeek-R1 和 Qwen2.5-Math-7BInstruct 等模型生成推理和非推理解决方案,然后通过过滤和验证步骤,确保数据的质量和正确性。

- 训练过程:

初始阶段专注于推理数据的训练

中间阶段引入非推理数据

最后阶段专注于聊天、指令遵循和工具调用的混合数据;

所有模型使用基于指令调整数据的逐标记交叉熵损失进行训练。

例如,在训练过程中,模型的输出与目标输出进行对比,通过计算交叉熵损失来调整模型的参数。

根据模型规模和需求,采用不同的学习率、序列长度和训练周期进行训练。

例如,LN-Nano 模型采用三阶段 SFT 流程:

LN-Super 模型在全数据集上进行单周期训练;

LN-Ultra 模型则采用更复杂的训练策略,包括线性热身和余弦衰减学习率调整,以确保训练的稳定性和收敛性。

大规模强化学习:

- 训练算法:

对于 LN-Ultra,采用 Group Relative Policy Optimization(GRPO)算法进行强化学习,以提升科学推理能力。

- 数据处理:

通过独立生成响应并计算通过率,筛选出通过率较低的提示,增加训练数据的难度。

同时,采用课程训练策略,根据预计算的通过率作为难度指标,动态调整每个批次的难度分布,使模型逐步学习从简单到复杂的任务。

- 奖励机制:

使用准确性奖励和格式奖励来引导模型学习。准确性奖励,通过判断模型生成的响应是否与真实答案匹配来给予奖励,确保模型能够准确回答问题;格式奖励,通过检查模型是否在推理模式下正确输出思考过程,并在非推理模式下避免输出思考标签,从而引导模型遵循正确的输出格式。

- 推理模式切换

通过轻量级系统提示“detailed thinking on/off”,实现推理模式和普通聊天模式之间的动态切换。

https://arxiv.org/pdf/2505.00949

https://huggingface.co/collections/nvidia/llama-nemotron-67d92346030a2691293f200b

主標籤:大型語言模型

次標籤:神經架構搜索強化學習監督式微調知識蒸餾


上一篇:微軟亞洲研究院 SYNTHLLM:為語言模型驗證合成數據的規模法則

下一篇:程式設計師要消失了?AI 教父Hinton、諾貝爾獎得主Pissarides和英偉達CEO黃仁勳齊聲示警

分享短網址