アンドリュー・ン氏(@AndrewYNg)が先日、「LLMの後学習」という新しいコースを発表しました。
このコースは、ワシントン大学の助教授であり、NexusFlowの共同創設者であるBanghua Zhu氏(@BanghuaZ)が講師を務めます。
このコースは、現在のAI分野で最も実用的な技術に焦点を当てています。
次の単語を予測するだけのモデルを、実際に役立つアシスタントに変える方法です。
大規模言語モデル(LLM)のトレーニングには、事前学習(pre-training)と後学習(post-training)の2つの重要な段階があることを知っておく必要があります。
事前学習段階では、モデルは膨大な量のラベルなしテキストから次の単語やトークンを予測することを学習します。そして後学習段階になって初めて、指示に従う、ツールを使用する、推論するといった真に役立つ行動を習得します。
後学習は、汎用的なトークン予測器(数兆のラベルなしテキストトークンでトレーニングされたモデル)を、指示に従い特定のタスクを実行できるアシスタントに変革します。
さらに重要なのは、後学習は事前学習よりもはるかに安価であるため、より多くのチームが後学習の手法をワークフローに組み込む機会を得ることができます。
3つの後学習手法
このコースでは、3つの一般的な後学習手法を紹介しています。
教師ありファインチューニング(SFT)
入力と理想的な出力のペアデータを使ってモデルをトレーニングします。これは最も直接的な方法で、子供に文字を教えるように、「この問題を見たら、こう答える」と教えるようなものです。
直接選好最適化(DPO)
好ましい(chosen)応答と好ましくない(rejected)応答を同時に提供し、モデルがより良い出力を好むようにトレーニングします。これはモデルに「この答えは良い、あの答えは悪い」と教え、優劣を区別させるようなものです。
オンライン強化学習(RL)
モデルが出力を生成した後、人間または自動フィードバックに基づいて報酬スコアを受け取り、それに基づいてモデルが性能を向上させるように更新されます。これは、「正解したらご褒美、間違えたら修正」というトレーニング方法に似ています。
実践こそが重要
このコースの最大の目玉は、豊富な実践演習です。
あなたは次のことを行います:
- SFTパイプラインを構築し、ベースモデルを指示モデルに変換する
- コントラスト損失を最小化することでDPOがどのように動作を再形成するかを探る—望ましくない応答を罰し、好ましい応答を強化する
- DPOパイプラインを実装して、チャットアシスタントのアイデンティティを変更する
- 近接方策最適化(PPO)や群衆相対方策最適化(GRPO)などのオンラインRL手法、および報酬関数の設計方法を学ぶ
- GRPOを使用してモデルをトレーニングし、検証可能な報酬を通じて数学能力を向上させる
すべての演習はHugging Faceからダウンロードした事前学習済みモデルに基づいており、各技術がモデルの動作をどのように形作るかを自分の目で確認できます。
コミュニティからの熱烈な反響
コースが公開されるやいなや、熱い議論が巻き起こりました。
TaskDrift™(@TaskDrift)は、その要点を指摘しました:
より多くの人々が後学習の力を理解する必要があります。SFT、DPO、RLは大研究室だけの特権ではありません。これらは小規模チームにとっても真のユースケースを解き放ちます。このコースが実用的で実践的になったことを嬉しく思います。
Consciousness is logic(@logicThink11031)は次のように述べています:
理論的には、これはLLMのギャップを埋めることができますが、本質的には、これは依然としてグリッドを洗練する努力です(微積分が無限に近づく概念に似ています)。
さらに彼は指摘しました:
私は常にこう考えています:チューリングツール→マカロック-ピッツニューラルネットワーク→LLMという流れは、知能の観点からは全体的な方向性が間違っているはずです。理論的に方向性を変えずに、ただ盲目的にギャップを埋めるだけでは、あまり意味がありません!
Sudhir Gajre(@SudhirGajre)は、実践的な観点からアドバイスをしました:
アンドリュー、まだコース資料は見ていませんが、コンテキストエンジニアリングの限界と制限についての議論を含めることをお勧めします。私の意見では、CEを使い果たした後にのみ後学習を検討すべきです。
後学習はLLMトレーニングにおいて最も急速に成長している分野の一つ
高精度な特定のコンテキストアシスタントを構築したい場合でも、モデルのトーンを微調整したい場合でも、特定のタスクの精度を向上させたい場合でも、このコースは今日のLLM後学習を形成する最も重要な技術を実践的に体験させてくれます。
Victor Ajayi(@the_victorajayi)のコメントは、非常に代表的です:
私はずっと後学習について深く学びたいと思っていました。このコースは完璧な機会に見えます。SFT、DPO、RLは、現実世界のAIの動作を形作る強力なツールであり、それぞれの方法が実際にどのように機能するかを見るのが待ちきれません。アクセスしやすくしてくれてありがとうございます!
事前学習が、人が文字を学び、すべての単語を認識し、言語の基本的なルールを理解するのを教えるようなものだとすれば、
後学習は、彼らに文章の書き方を教えることです。いつ、どの単語を使い、特定の意味を伝えるためにどのように言葉を構成するかを教えることです。
前者はモデルに「知る」ことを、後者はモデルに「使える」ことを教えます。
これが、後学習がなぜこれほど重要なのかを説明しています。
それがなければ、私たちは知識は豊富だが応用できない「本の虫」を得るだけでしょう。
今、アンドリュー・ン氏がこの技術の鍵をあなたの手に渡しました。
学ぶか学ばないか、私が手助けできるのはここまでです。
コースリンク: https://www.deeplearning.ai/short-courses/post-training-of-llms/