吳恩達推出大型語言模型(LLM)後訓練免費課程,涵蓋三大調優方法:SFT、DPO、RL

吳恩達(@AndrewYNg)剛發布了一門新課程:「大型語言模型(LLM)後訓練」。

這門課程由華盛頓大學助理教授、NexusFlow 共同創辦人 Banghua Zhu(@BanghuaZ)主講。

這門課程鎖定當前 AI 領域最實用的技術:

如何將一個只會預測下一個詞彙的模型,轉變為真正能協助你工作的助手

要知道,訓練大型語言模型(LLM)需要兩個關鍵階段:預訓練和後訓練。

在預訓練階段,模型會從海量未標註的文本中學習預測下一個詞彙或標記(token)。而後訓練階段,它才學會真正有用的行為:遵循指令、使用工具和推理

後訓練將一個通用的標記預測器(在數萬億未標註文本標記上訓練的模型)轉變為一個能遵循指令並執行特定任務的助手。

更重要的是,後訓練比預訓練便宜得多,這讓更多團隊有機會將後訓練方法納入他們的工作流程。

三種後訓練方法

課程重點介紹了三種常見的後訓練方法:

監督式微調(SFT)

你提供模型輸入和理想輸出的配對資料進行訓練。這是最直接的方法,就像教小孩認字一樣,告訴它「看到這個問題,就這樣回答」。

直接偏好優化(DPO)

你同時提供一個偏好(chosen)和一個不太偏好(rejected)的回應,訓練模型偏向更好的輸出。這就像告訴模型「這個答案好,那個答案差」,讓它學會分辨優劣。

線上強化學習(RL)

模型生成輸出後,根據人類或自動回饋獲得獎勵分數,然後更新模型以提升效能。這更像是「做對了給糖,做錯了改正」的訓練方式。

實作才是王道

這門課程最大的亮點是大量的實作練習

圖片

你將會:

  • 建構監督式微調(SFT)管道,將基礎模型轉變為指令模型
  • 探索直接偏好優化(DPO)如何透過最小化對比損失來重塑行為——懲罰不佳的回應,強化偏好的回應
  • 實作直接偏好優化(DPO)管道來改變聊天助手的身份
  • 學習線上強化學習(RL)方法,如近端策略優化(PPO)和群體相對策略優化(GRPO),以及如何設計獎勵函數
  • 使用群體相對策略優化(GRPO)訓練模型,透過可驗證的獎勵提升其數學能力

所有實作都基於從 Hugging Face 下載的預訓練模型,你能親眼看到每種技術如何形塑模型的行為。

圖片

社群反應熱烈

課程一發布就引發了熱烈討論。

TaskDrift™(@TaskDrift)指出了關鍵:

更多人需要理解後訓練的力量。監督式微調(SFT)、直接偏好優化(DPO)和強化學習(RL)不只是大型實驗室的專利,它們為小型團隊解鎖了真正的應用案例。很高興這門課程讓它變得實用且易於實作。

Consciousness is logic(@logicThink11031)認為:

理論上,它可以填補大型語言模型(LLM)的空白,但本質上,這仍然是一種精化網格的努力(類似於微積分接近無限的概念)。

他進一步指出:

我一直認為:從圖靈工具→McCulloch-Pitts 神經網路→大型語言模型(LLM),從智能的角度來看,整體方向應該是錯誤的。如果我們不在理論上改變方向,只是盲目地填補空白,意義不大!

Sudhir Gajre(@SudhirGajre)則從實踐角度給出建議:

Andrew,誠然還沒看過課程材料。但我建議加入一些關於情境工程(Context Engineering)邊界和限制的討論。在我看來,只有在你用盡情境工程之後,才應該考慮後訓練。

後訓練是大型語言模型(LLM)訓練中發展最快的領域之一

無論你是想建構高精度的特定情境助手、微調模型的語氣,還是提升特定任務的準確性,這門課程都能讓你親身體驗當今形塑大型語言模型(LLM)後訓練的最重要技術。

Victor Ajayi(@the_victorajayi)的評價很有代表性:

我一直渴望深入了解後訓練,這門課程看起來是完美的機會。監督式微調(SFT)、直接偏好優化(DPO)和強化學習(RL)是形塑真實世界 AI 行為的強大工具,迫不及待想看看每種方法在實踐中如何運作。感謝讓這變得易於取得!

如果說預訓練就像教一個人識字,讓他認識所有的字詞,理解語言的基本規律。

那麼後訓練,則是教他如何寫作——什麼時候該用什麼詞,如何組織語言來表達特定的意思。

前者讓模型「知道」,後者讓模型「會用」。

這也解釋了為什麼後訓練如此重要:

沒有它,我們得到的只是一個博學但不會應用的「書呆子」。

現在,吳恩達把這門技術的鑰匙交到了你手中。

學還是不學,我只能幫到這裡了。


課程連結: https://www.deeplearning.ai/short-courses/post-training-of-llms/

主標籤:大型語言模型

次標籤:LLM後訓練機器學習AI課程深度學習


上一篇:持續強化學習技術最新綜述

下一篇:數學訓練如何「解鎖」大型模型的通用推理能力?最新研究揭示關鍵機制

分享短網址