新刊「Reasoning From Scratch」第1章公開:Sebastian Raschka氏が語るLLMの推論、パターンマッチング、基本学習

Ahead of AIより

著者:Sebastian Raschka

Syncedにより翻訳

推論モデルの開発が盛んに行われている中、著名なAI技術ブロガーであるSebastian Raschka氏も、推論モデルの仕組みに関する新刊「Reasoning From Scratch」を執筆中です。これまでに、同氏は「Build a Large Language Model (From Scratch)」、「Machine Learning Q and AI」、「Machine Learning with PyTorch and Scikit-Learn」など、AI分野の著名な書籍を多数出版しています。

最近、同氏は自身のブログで本書の第1章を公開し、LLM分野における推論の入門的な紹介と、推論時間スケール拡大や強化学習といった技術手法の概説を行っています。

Syncedは、読者のために本書の第1章を翻訳しました。

(注:明確にするために、本稿では inference を「推断(すいすい)」、reasoning を「推論(すいろん)」と訳します。inference は入力に基づいてモデルが出力を生成する計算プロセス(例:テキスト生成)を指し、reasoning は思考の連鎖などの手法を用いて論理分析、因果判断、問題解決を行うモデルの能力に焦点を当てます。)

大規模言語モデル(LLM)の次の段階へようこそ:推論です。

LLMは、私たちがテキストを処理し生成する方法を変革しましたが、その成功は主に統計的なパターン認識に起因しています。しかし、論理パズルや多段階の算術問題を解くといった、より複雑なタスクをLLMが処理できるようにする推論手法に新たな進歩が見られます。これらの手法を理解することが、本書の核心です。

本章では以下の内容を紹介します:

LLMにおける「推論」が具体的に何を意味するのか;

推論とパターンマッチングの根本的な違い;

LLMの従来の事前学習および事後学習段階;

LLMの推論能力を向上させるための主要な方法;

なぜ推論モデルをゼロから構築することが、その強み、限界、実践的なトレードオフを理解するのに役立つのか。

1. LLMにおける「推論」とは正確には何か?

LLMベースの推論とは何でしょうか?この問いに対する答えと議論自体が一冊の本になり得るでしょう。しかし、本書はそれとは異なり、LLM推論手法をゼロから実装することを目的としているため、概念的な推論よりも実践的で手を動かすプログラミングに重点を置きます。それでも、LLMの文脈で「推論」と言うときに何を意味するのかを簡潔に定義することが重要だと思います。

したがって、以降の章でプログラミングパートに進む前に、本書のこの最初のセクションでLLMの文脈における推論と、それがパターンマッチングや論理的演繹との関係を定義したいと思います。これにより、LLMが現在どのように構築されているか、推論タスクにどのようにアプローチするか、そしてその長所と短所についてのさらなる議論の基礎が築かれます。

本書では、LLMの文脈における「推論」は以下のように定義されます:

LLMの文脈において、推論とは、最終的な回答を提供する前に中間ステップを生成するモデルの能力を指します。このプロセスはしばしば思考の連鎖(CoT)推論として記述されます。CoT推論では、LLMは結論に至るプロセスを示す構造化されたステートメントまたは計算のシーケンスを明示的に生成します。

図1は、LLMが多段階(CoT)推論タスクを実行する簡単な例を示しています。

図1:LLMが多段階推論タスクを処理する簡易版の例。推論モデルが行うのは、単に事実を思い出すことではなく、複数の中間推論ステップを組み合わせて正しい結論を導き出すことです。実装方法によっては、中間推論ステップはユーザーに表示される場合とされない場合があります。

図1からわかるように、LLMが生成する中間推論ステップは、人間が頭の中で考えていることを声に出して表現しているのと非常によく似ています。しかし、これらの手法(およびそれによって生じる推論プロセス)が人間の推論とどの程度似ているかは、まだ未解決の問題であり、本書はこの問いに答えようとはしません。このような問いが明確に答えられるかどうかすら不明確です。

代わりに、本書はLLMの推論能力を高め、LLMがより複雑なタスクをうまく処理できるようにする技術の解説と実装に焦点を当てます。これらの手法に実際に触れることで、現在開発中の推論手法をよりよく理解し改善できること、そして人間の推論との類似点や相違点を探求できることを願っています。

注:LLMにおける推論プロセスは、特に中間ステップの表現方法において、人間の思考と非常によく似ているように見えるかもしれません。しかし、LLMの推論が内部の認知プロセスに関して人間の推論と類似しているかどうかは、現在のところ不明確です。人間の推論のやり方は通常、概念を意識的に操作したり、抽象的な関係を直感的に理解したり、少数の例に基づいて一般化したりします。これに対し、現在のLLMの推論は、明示的な内部認知構造や意識的な内省ではなく、訓練データ中の膨大な統計的相関関係から学習されたパターンに基づいています。

したがって、推論強化型LLMの出力は人間のようには見えますが、その根底にあるメカニズムは(おそらく)大きく異なっており、これは活発な探求分野です。

2. LLM訓練プロセスの紹介

このセクションでは、LLMの典型的な訓練方法を簡潔にまとめ、その設計をよりよく理解し、その限界を知ることができるようにします。この背景は、パターンマッチングと論理的推論の違いについて議論するのにも役立ちます。

推論手法を適用する前に、従来のLLMの訓練は通常、事前学習と事後学習の2段階に分かれています。以下の図2をご覧ください。

図2:典型的なLLMのトレーニングフローの概要。最初に、モデルはランダムな重みで初期化され、次に大規模なテキストデータセット上で次のトークンを予測することで事前トレーニングされ、言語パターンを学習します。その後、指示チューニングと嗜好チューニングによってモデルが最適化され、LLMがより人間からの指示に従い、人間の嗜好に沿うようにします。

事前学習段階では、LLMは書籍、ウェブサイト、研究論文、その他多くのソースを含む大量(数TBにも及ぶ)のラベルなしテキストで訓練されます。LLMの事前学習の目的は、これらのテキスト中の次の単語(またはトークン)を予測することを学ぶことです。

TBレベルのテキストを使用して大規模な事前学習を行う場合、現在の主要なLLMは数千台のGPUを数ヶ月間実行し、数百万ドルの資金を費やす傾向があり、その結果として非常に強力なLLMが得られます。これは、人間が書いたテキストと非常に似たテキストを生成する能力を持ち始めることを意味します。さらに、ある程度、事前学習されたLLMは、翻訳、コード生成など、明示的に訓練されていないタスクを実行できる、いわゆる創発的特性(emergent property)を示し始めます。

ただし、これらの事前学習モデルは、事後学習段階の基盤モデルにすぎません。事後学習段階では、教師ありファインチューニング(SFT、指示チューニングとも呼ばれます)と嗜好ファインチューニングという2つの重要な技術が使用されます。事後学習の目的は、LLMがユーザーのクエリに応答することを学ぶことです。以下の図3を参照してください。

図3:異なるトレーニング段階における言語モデルの応答例。図では、睡眠と健康の関係について要約を求めるプロンプトです。事前学習済みLLMは、関連はあるものの焦点が定まらない回答で、指示に直接従っていません。指示チューニング版LLMは、プロンプトに沿った簡潔で正確な要約を生成しています。一方、嗜好チューニング済みLLMは、よりフレンドリーなトーンとより魅力的な言葉遣いを使用して応答をさらに改善し、回答をより関連性が高くユーザー中心的なものにしています。

図3に示すように、指示ファインチューニングは、質疑応答、要約、テキスト翻訳など、パーソナルアシスタントのようなタスクにおけるLLMの能力を向上させます。次に、嗜好ファインチューニング段階でこれらの能力が洗練されます。これは、ユーザーの嗜好に合わせて応答を調整するのに役立ちます。さらに、嗜好ファインチューニングは、LLMをより安全にするためにもよく使用されます。(一部の読者は、人間からのフィードバックによる強化学習(RLHF)などの用語に馴染みがあるかもしれませんが、これらは嗜好ファインチューニングを実現するための具体的な技術です。)

簡潔に言うと、事前学習を「生の言語予測」(次のトークン予測による)と見なすことができ、これによりLLMにいくつかの基本的な特性と一貫性のあるテキストを生成する能力が提供されます。次に、事後学習段階は、指示ファインチューニングを通じてLLMのタスク理解能力を高め、嗜好ファインチューニングを通じてLLMが特定のスタイルの回答を作成する能力を持つようにします。

LLMの事前学習と事後学習段階の詳細に興味のある読者は、「Build A Large Language Model (From Scratch)」を参照してください。しかし、推論に関するこの現在の本では、これらの段階に関する知識は必要ありません。最初からすでに事前学習および事後学習済みのモデルが提供されます。

3. パターンマッチング:LLMはデータからどのように学習するか

LLMは訓練される際、膨大な量のテキストデータを「読み込み」、前文に基づいて次のトークンを予測する方法を学習します。これは、コンテンツを本当に「理解」するのではなく、データ中の統計的規則性を見つけることによって行われます。したがって、たとえ流暢で筋の通った文章を書くことができても、本質的には表面的な関連性を模倣しているだけであり、深い思考を行っているわけではありません。

現在のほとんどのLLM(GPT-4o、MetaのLlama 3など、推論能力のために特別に訓練されていない限り)はこのように動作します。これらは人間のように一歩ずつ論理的に推論するのではなく、入力された問題に基づいて、訓練データから最も可能性の高い答えを見つけます。簡単に言えば、これらは真の論理的推論によって答えるのではなく、入力と出力のパターンを「マッチング」しているのです。

以下の例を参考にしてください:

プロンプト:ドイツの首都は...

回答:ベルリン

LLMが「ベルリン」と答えるとき、それは論理的な推論によって結論に達したのではなく、訓練データから「ドイツ→ベルリン」という高頻度の組み合わせを覚えているだけです。この反応は条件反射のようなもので、これを「パターンマッチング」と呼びます。モデルは学習したテキストの規則性を再現しているだけで、真に一歩ずつ考えているわけではありません。

しかし、より複雑な問題に遭遇した場合はどうでしょうか?たとえば、既知の事実に基づいて答えを推測する必要があるタスクです。このとき、別の能力が必要になります:論理的推論です。

真の論理的推論とは、数学の問題を解くように、前提に基づいて一歩一歩結論を導き出すことです。これには中間的な思考ステップが必要であり、矛盾を発見でき、確定した規則に基づいて因果関係を判断することも可能です。これは単に「文字の関係性をマッチングさせる」こととは全く異なります。

例えば:

全ての鳥は飛べる。ペンギンは鳥である。では、ペンギンは飛べるか?

もし人間(あるいは本当に推論するシステム)であれば、すぐに違和感に気づくでしょう。最初の2文からすると、ペンギンは飛べるはずですが、誰もが知っているように、ペンギンは実際には飛べません。これが矛盾です(以下の図1.4を参照)。

推論できるシステムは、この矛盾を即座に捉え、以下のいずれかを認識します。つまり、最初の文が絶対的すぎる(全ての鳥が飛べるわけではない)か、ペンギンが例外であるかです。

図4:前提の矛盾に起因する論理的衝突の模式図。「すべての鳥は飛べる」と「ペンギンは鳥である」という2つの文に基づき、「ペンギンは飛べる」という結論を導き出します。しかし、この結論は既知の事実「ペンギンは飛べない」と直接衝突し、矛盾が生じます。

統計学習に依存するLLMは、このような矛盾を積極的に認識しません。訓練データ中のテキストの規則性に基づいて答えを予測するだけです。もし訓練データ中で「全ての鳥は飛べる」という表現が特によく出現する場合、モデルは自信満々に「はい、ペンギンは飛べます。」と答えるかもしれません。

次のセクションでは、LLMがこの「全ての鳥は飛べる...」の問題に遭遇した際に実際にどのように答えるかを、具体的な例を用いて見ていきます。

4. 論理的推論のシミュレーション:LLMが明示的なルールなしに推論ロジックを模倣する方法

前のセクションで、矛盾した前提(例えば「全ての鳥は飛べるが、ペンギンは飛べない」)に遭遇した場合、通常のLLMはこれらの矛盾を積極的に検出しないことを述べました。訓練中に学習したテキストの規則性に基づいて回答を生成するだけです。

では、具体的な例を見てみましょう(図5参照):GPT-4oのように推論能力が専門的に強化されていないモデルが、この「全ての鳥は飛べる...」の問題に遭遇した場合、どのように答えるでしょうか?

図5:言語モデル(GPT-4o)が矛盾した前提をどのように処理するかの例。

図5の例からわかるように、GPT-4oは専門的な推論モデルではありませんが(OpenAIのo1やo3のように推論機能を専門的に開発した他のバージョンとは異なります)、この問題に対して一見正しい回答をしました。

これはどういうことでしょうか?GPT-4oは本当に論理的に推論できるのでしょうか?実際にはそうではありませんが、少なくとも、4oが慣れ親しんだシナリオでは、非常にリアルに論理的推論のように「振る舞う」ことができることを示しています。

実際、GPT-4oは発言に自己矛盾がないか積極的にチェックすることはありません。その回答は、膨大なデータから学習した「単語の共起確率」に完全に依拠しています。

例えば、もし訓練データ中に「ペンギンは飛べない」という正しい表現が頻繁に出現する場合、モデルは「ペンギン」と「飛べない」という関連性をしっかりと記憶します。図5が示すように、4oが真の論理的推論能力を持っていなくても、この「単語確率記憶」によって正しい答えを出すことができるのです。

簡単に言うと:それは論理規則を使って考えているのではなく、「たくさん見たから自然に覚えた」という方法で答えています。

簡単に言えば、モデルがこの矛盾を「察知」できるのは、訓練時に類似の例を繰り返し見ているからです。この能力は、膨大なデータから学習したテキストの規則性から完全に derived しています。まるで「習うより慣れろ」という言葉のように、たくさん見ているうちに自然にできるようになるのです。

言い換えれば、図5のように通常のLLMが一見論理的に推論しているように見えても、実際にはルールに従って一歩一歩考えているのではなく、膨大な訓練データから学習したテキストの規則性を利用しているだけなのです。

しかし、ChatGPT 4oがこの問題に正しく答えられたことは、超大規模な訓練を経ると、その「暗黙の規則マッチング」能力が非常に強力になりうるという重要な現象を示しています。しかし、統計的な規則に基づいたこのパターンにも明確な弱点があり、以下のような状況ではエラーを起こしやすいです:

全く新しいタイプの問題に遭遇した場合(訓練データで全く見たことのない論理問題)→ 例えるなら、問題集しか解いたことのない学生が突然見たことのない試験問題に遭遇するようなものです。

問題が複雑すぎる場合(連鎖的な多段階推論が必要な場合)→ 計算機に証明過程を書く必要がある数学の難問を解かせるようなものです。

厳密な論理的演繹が必要な場合(ただし訓練データに類似の事例がない場合)→ 手本となるエッセイを暗記した学生に、その場で全く新しい形式の文章を作成させるようなものです。

ルールシステムがそれほど信頼できるのであれば、なぜ今は普及していないのでしょうか?実際、80年代や90年代にはルールベースのシステムは非常に人気があり、医療診断、法律判断、エンジニアリング設計などの分野で使用されていました。今日でも、医療、法律、航空宇宙などの生命に関わる分野ではまだその姿を見ることができます。結局のところ、これらの場面では明確な推論プロセスと追跡可能な決定根拠が必要だからです。しかし、このシステムには大きな欠点があります。それは、ルールを完全に手作業で記述する必要があり、開発に非常に労力がかかることです。対照的に、LLMのようなディープニューラルネットワークは、膨大なデータを訓練すれば、様々なタスクを柔軟に処理でき、適用範囲がはるかに広いです。

このように理解することができます。LLMは、膨大なデータから規則性を学習することで論理的推論を「装っている」のです。内部では規則ベースの論理システムを実行していませんが、推論計算能力の強化や事後学習戦略などの専門的な最適化手法を通じて、この模倣能力をさらに向上させることができます。

特筆すべきは、LLMの推論能力は実は漸進的な発展過程にあるということです。o1やDeepSeek-R1といった専門的な推論モデルが登場するずっと前から、通常のLLMはすでに推論に似た振る舞いを示すことができていました。例えば、中間ステップを生成することで正しい結論を導き出すなどです。そして、現在私たちが「推論モデル」と呼んでいるものは、本質的にこの能力をさらに強化・最適化した結果であり、主に2つの方法で実現されています。1. 特殊な推論計算拡張技術の採用、2. ターゲットを絞った事後学習の実施です。

本書の今後の内容は、大規模言語モデルが複雑な問題を解決する能力を高めるためのこれらの高度な手法に焦点を当て、大規模言語モデルのこの「暗黙的な」推論能力をどのように強化するかについて、より深い理解を深めるのに役立つでしょう。

5. LLMの推論能力の向上

大規模言語モデルの「推論能力」が真に一般の目に触れるようになったのは、2024年9月12日にOpenAIがo1を発表した時です。その公式発表記事で、OpenAIは特に以下のように言及しています:

これらの新しいAIバージョンは、以前のように即座に返信するのではなく、人間のように数秒間考え込んで、より信頼性の高い回答を保証します。

OpenAIはさらに具体的に述べています:

この強化された思考能力は、科学、プログラミング、数学といった分野の複雑な問題を解決するのに特に役立ちます。これらの分野の問題は、しばしば理解するためにいくつかの段階を経る必要があるからです。

o1の具体的な技術詳細は公開されていませんが、GPT-4などの以前のモデルを基盤として、「推論計算能力の強化」を通じてより強力な思考能力を実現していると広く考えられています。

数か月後の2025年1月、DeepSeek社はDeepSeek-R1モデルと技術報告書を発表し、推論モデルの訓練方法を詳細に説明し、大きな反響を呼びました。なぜなら:

彼らはo1に匹敵するか、それを上回る性能を持つモデルを無料でオープンソース化するだけでなく;

そのようなモデルを開発するための完全な計画も公開しました。

本書では、これらの手法をゼロから実装することで、AIの推論能力を高める技術原理を理解できるようになります。図6に示すように、現在、大規模言語モデルの推論能力を強化する方法は主に3つのカテゴリに分けられます:

図6:大規模言語モデルの推論能力を向上させる3つの主要な方法。これらの3つの方法(推論計算強化、強化学習、知識蒸留)は、モデルが通常の訓練を完了した後に使用されるのが一般的です。通常の訓練とは、基盤モデル訓練、事前訓練、指示チューニング、嗜好チューニングを含みます。

図6に示すように、これらの強化方法は、前述の通常の訓練段階をすでに完了したモデルに対して適用されます。

推論時間計算強化

推論時間計算スケール拡大(推論計算強化、テスト時強化などとも呼ばれます)は、推論段階(すなわちユーザーがプロンプトを入力したとき)でモデルの推論能力を高める一連の手法を含んでおり、基盤となるモデルの重みを訓練したり変更したりする必要はありません。その核心的な考え方は、より多くの計算リソースを性能向上と引き換えにすることであり、思考の連鎖推論や多様なサンプリング手順といった技術を活用して、固定パラメータのモデルがより強力な推論能力を発揮できるようにすることです。

強化学習(RL)

強化学習は、報酬信号を最大化することでモデルの推論能力を向上させる訓練方法の一種です。その報酬メカニズムは2種類に分けられます:

広範な報酬:タスク完了度やヒューリスティックなスコアリングなど

正確で検証可能な報酬:数学問題の正答やプログラミングタスクの合格率など

推論時間計算強化(inference-time compute scaling)とは異なり、RLはモデルパラメータ(weights updating)の動的調整を通じて能力向上を実現します。このメカニズムにより、モデルは環境からのフィードバックに基づいて、試行錯誤学習を通じて推論戦略を継続的に最適化することができます。

注:推論モデルを開発する際には、ここで議論されている純粋な強化学習(RL)手法と、通常の大きな言語モデル開発で嗜好チューニングに使用される人間からのフィードバックに基づく強化学習(RLHF)(図2に示す)を明確に区別することが重要です。両者の核心的な違いは報酬信号の源泉にあります。RLHFは人間のモデル出力に対する明示的な評価またはランキングを通じて報酬信号を生成し、モデルが人間の好む行動に沿うように直接誘導します。一方、純粋なRLは自動化された、または環境主導の報酬信号(数学的証明の正しさなど)に依存しており、その利点は客観性ですが、人間の主観的な好みに沿う度合いが低くなる可能性があります。典型的なシナリオの比較:純粋なRL訓練:数学的証明タスクを例にとると、システムは証明ステップの正しさにのみ基づいて報酬を提供します。RLHF訓練:人間の評価者が異なる出力に対して嗜好をランキングし、人間の基準(表現の明確さ、論理的な流暢さなど)を満たす応答を最適化する必要があります。

教師ありファインチューニングとモデル蒸留

モデル蒸留とは、高性能な大規模モデルが習得した複雑な推論パターンをより軽量なモデルに移転する技術です。LLMの分野では、この技術は通常、高性能な大規模モデルが生成した高品質な注釈付き指示データセットを用いて教師ありファインチューニング(Supervised Fine-Tuning, SFT)を行う形で現れます。この技術は、LLMの文献では知識蒸留(Knowledge Distillation)または単に蒸留(Distillation)と総称されることが多いです。

従来のディープラーニングとの違い:古典的な知識蒸留では、「学生モデル」は「教師モデル」の出力結果とlogitの両方を学習する必要がありますが、LLMの蒸留は通常、出力結果のみに基づいて転移学習を行います。

注:このシナリオで使用される教師ありファインチューニング(SFT)技術は、通常の大きな言語モデル開発におけるSFTと似ていますが、その核心的な違いは、訓練サンプルが推論タスクのために専門的に開発されたモデルによって生成される点にあります(一般的なLLMではなく)。そのため、その訓練サンプルは推論タスクにより集中しており、通常、中間推論ステップを含んでいます。

6. 推論モデルをゼロから構築することの重要性

2025年1月にDeepSeek-R1がリリースされて以来、LLMの推論能力向上はAI分野で最もホットな話題の一つとなっています。その理由は容易に理解できます。より強力な推論能力は、LLMがより複雑な問題を解決することを可能にし、ユーザーが関心を持つ様々なタスクに対処する能力を高めます。

OpenAI CEOの2025年2月12日の声明も、この変化を反映しています:

次に、我々はGPT-4.5をリリースします。これは社内でOrionと呼んでいるモデルで、我々の最後の非思考連鎖モデルです。これ以降、我々の第一の目標は、全てのツールを使用でき、長時間考える必要があるかどうかを知っており、様々なタスクに広く使用できるシステムを構築することによって、oシリーズモデルとGPTシリーズモデルを統合することです。

上記の引用は、主要なLLMプロバイダーによる推論モデルへの移行を強調しています。ここで、思考の連鎖とは、言語モデルが推論能力を高めるために段階的に推論するように導くプロンプト技術を指します。

もう一点特筆すべきは、「長時間考える必要があるかどうかを知っている」という点が、重要な設計上の考慮事項を示唆していることです。推論が常に必要であるか、または望ましいわけではないということです。

例えば、推論モデルは、パズル、高度な数学問題、難しいプログラミングタスクなど、複雑なタスクを解決するために設計されています。しかし、要約、翻訳、知識ベースの質疑応答といった簡単なタスクには、推論は必要ありません。実際、推論モデルをすべてのタスクに使用することは、非効率でコストがかかる可能性があります。例えば、推論モデルは通常、使用コストが高く、冗長であり、「考えすぎ」によってエラーを起こしやすい場合もあります。さらに、ここでも簡単なルールが適用されます。それは、特定のタスクには適切なツール(またはLLMのタイプ)を使用することです。

なぜ推論モデルは非推論モデルよりもコストが高いのか?

主に、中間推論ステップが回答に至る方法を説明するため、より長い出力を生成する傾向があるからです。図7に示すように、LLMは一度に1つのトークンでテキストを生成します。新しいトークンごとに、モデルを通じた完全な順方向パスが必要です。したがって、推論モデルが非推論モデルの2倍の長さの回答を生成する場合、生成ステップも2倍必要となり、計算コストも2倍になります。これはAPIの使用コストにも直接影響します。課金は通常、処理および生成されたトークンの数に基づいています。

図7:LLMにおけるトークンごとの生成。各ステップで、LLMはこれまでに生成された完全なシーケンスを取得し、次のトークンを予測します。これは、トークナイザーに応じて、単語、サブワード、または句読点を表す場合があります。新しく生成されたトークンはシーケンスに追加され、次のステップの入力として使用されます。この反復的なデコードプロセスは、標準の言語モデルと推論中心のモデルの両方で使用されます。

これは、LLMと推論手法をゼロから実装することの重要性を直接強調しています。これは、それらがどのように機能するかを理解する最良の方法の一つです。LLMとこれらの推論モデルの仕組みを理解すれば、これらのトレードオフをよりよく理解できます。

7. まとめ

LLMにおける推論は、多段階タスクを体系的に解決するために中間ステップ(思考の連鎖)を使用することを伴います。

従来のLLM訓練はいくつかの段階に分かれています:事前学習(モデルが膨大なテキストから言語パターンを学習)、指示チューニング(ユーザーのプロンプトに対するモデルの応答を改善)、嗜好チューニング(モデルの出力を人間の嗜好に合わせる)。

LLMにおけるパターンマッチングは、データから学習した統計的関連性に完全に依存しており、これにより流暢なテキスト生成が可能になりますが、明確な論理的演繹は欠如しています。

LLMの推論能力は、推論時間計算拡張(再訓練なしに推論を強化する、例:思考の連鎖プロンプト)、強化学習(報酬信号を使用してモデルを明示的に訓練)、教師ありファインチューニングと蒸留(より強力な推論モデルからの例を使用)によって強化できます。

推論モデルをゼロから構築することは、LLMの能力、限界、計算トレードオフに関する実践的な洞察を提供できます。

以上が、Sebastian Raschka氏の新刊「Reasoning From Scratch」の第1章の主要な内容です。いくつかの基本的な紹介を通じて、本書の良い基調を築いていると言えます。推論モデルについてのご意見や、本書への期待などがあればお聞かせください。

メインタグ:大規模言語モデル

サブタグ:AI研究モデルトレーニング思考の連鎖機械学習


前の記事:常識を覆す:なぜLLMの最終的な回答は信頼できない可能性があるのか?

次の記事:豆包 (Doubao) 描画モデル 3.0:AI画像生成の敷居がさらに低く

短いURLをシェア