AGI理論比較:積極的推論、強化学習、制御理論、ベイズ脳、効用意思決定、限定合理性、感情的動機、動的恒常性

著作権表示

CreateAMindからの転載であり、学術的な共有を目的としています。侵害がある場合は削除を要請してください。

https://direct.mit.edu/books/oa-monograph/5299/Active-InferenceThe-Free-Energy-Principle-in-Mind

Active Inference as a Unified Theory of Sentient Behavior

私たちは一般的に、脳が最も得意とすることに最も気づいていない。

—マービン・ミンスキー

本章は、積極的推論の詳細な要約であり、多数の異なる理論の詳細な比較を行っています。(2万語)

10.1 序論

10.2 章の要約

10.3 繋がる点:積極的推論の統合的視点

10.4 予測脳、予測心、予測処理(準最適)

10.4.1 予測処理

10.5 知覚

10.5.1 ベイズ脳仮説(準最適)

10.6 動作制御

10.6.1 観念運動理論

10.6.3 最適制御理論

10.7 効用と意思決定

10.7.1 ベイズ意思決定理論(準最適)

10.7.2 強化学習(準最適)

10.7.3 Planning as Inference

10.8 行動と限定合理性

10.8.1 限定合理性の自由エネルギー理論

10.9 Valence, Emotion, and Motivation

10.10 恒常性、アロスタシス、内受容処理

10.11 注意、顕著性、認知ダイナミクス

10.12 規則学習、因果推論、高速汎化

10.13 積極的推論とその他の領域:開かれた方向性

10.13.1 社会的および文化的ダイナミクス

10.13.2 機械学習とロボット工学

10.14 まとめ

10.1 序論

本章では、積極的推論の主要な理論的ポイント(本書の第1部から)とその実際の実装(第2部から)を要約します。次に、これらのポイントを関連付けます。前の章で議論した特定の積極的推論モデルから抽象化し、フレームワークの統合的な側面に焦点を当てます。積極的推論の利点の一つは、知覚を持つ生物が解決しなければならない適応問題に対する完全な解決策を提供することです。そのため、心理学や神経科学では通常個別に扱われ、人工知能では異なる計算アプローチが使用される知覚、行動選択、注意、感情調節などの問題に対して統合的な視点を提供します制御理論、観念運動理論、強化学習、最適制御などの確立された理論を背景に、これらの問題(およびそれ以上の問題)について議論します。最後に、積極的推論の範囲を、本書では深く議論されていない他の生物学的、社会的、技術的トピックにどのように拡張できるかについて簡単に議論します。

10.2 まとめ

本書は、積極的推論の理論的基盤と実際の実装を体系的に提示しています。ここでは、最初の9章での議論を簡単に要約します。これにより、本章の残りの部分で役割を果たす積極的推論の主要な構造を演習する機会が得られます。

第1章では、環境が動作-知覚サイクル(Fuster, 2004)の一部を構成する知覚を持つ生物を理解するための規範的なアプローチとして積極的推論を紹介しました。規範的なアプローチが第一原理から始まり、関心のある現象に関する経験的予測を導き出し、テストすることを説明しました。ここでは、生物は環境と適応的に(行動-知覚の環境相互作用サイクル)相互作用する際に、その存在を持続させます。

画像

第2章では、積極的推論の初歩的な道筋を詳しく説明しました。この道筋は、脳が生成モデルを持つ予測機械であるという考えから始まります。生成モデルとは、世界に隠れた原因がどのように感覚を生み出すか(例:リンゴから反射した光が網膜を刺激する方法)の確率的表現です。このモデルを反転させることで、感覚の原因を推論できます(例:網膜がこのように刺激されている場合、リンゴを見たのか)。この知覚の視点(別名「推論としての知覚」)は、ヘルムホルツの無意識的推論の概念、および最近のベイズ脳仮説に歴史的ルーツを持ちます。積極的推論は、動作制御と計画を推論の範囲に含める(「推論としての制御」、「推論としての計画」とも呼ばれる)ことで、この視点を拡張します。最も重要なのは、知覚と行動は典型的には分離可能なプロセスではなく、同じ目標を達成することを示していることです。まず、この目標をモデルと世界との間の差異の最小化(通常、予期せぬ事態や予測誤差の最小化に還元される)として、より非公式に説明します。簡単に言えば、モデルと世界との間の差異を最小化する方法は2つあります世界に適合するように自分の考えを変える(知覚)か、モデルに適合するように世界を変える(行動)です。これらはベイズ推論で記述できます。しかし、正確な推論は一般的に難しいため、積極的推論は(変分)近似を使用します(正確な推論は近似推論の特殊なケースと見なすこともできます)。これにより、知覚と行動の共通目標の2番目のより正式な記述である変分自由エネルギー最小化につながります。これは、積極的推論で用いられる中心的な量であり、その構成要素(例:エネルギーとエントロピー、複雑性と正確性、または予期せぬ事態と乖離)に基づいて分解できます。最後に、第2の自由エネルギーである期待自由エネルギーを導入します。これは計画において特に重要であり、代替的な方策が将来どのような結果を生み出すかを考慮することで、代替的な方策を評価する方法を提供します。これもその構成要素(例:情報利得と効用価値、期待される曖昧さとリスク)に基づいて分解できます。

第3章では、積極的推論のより広範な道筋を詳しく説明しました。この代替的な道筋は、生物有機体がその完全性を維持し、消散を避ける必要性から始まり、これは驚くべき状態を避けることとして記述できます。次に、マルコフブランケットの概念を導入します。これは、有機体の内部状態と世界の外部状態との間の統計的分離の形式化です。重要なことに、内部状態と外部状態は、中間的な(能動的および感覚的)変数(ブランケット状態と呼ばれる)を介してのみ相互に影響を及ぼし合うことができます。このマルコフブランケットによって媒介される統計的分離は、有機体に外部世界からの一定の自律性を与えるために不可欠です。これが有用な視点である理由を理解するには、次の3つの結果を考慮してください。

まずマルコフブランケットを持つ有機体は、ベイズ的な意味で外部環境をモデル化しているように見えます。その内部状態は平均して、世界の外部状態に関する近似事後信念に対応します第二に自律性は、有機体のモデル(その内部状態)が不偏ではなく、その存在のために維持しなければならない前提条件(または事前優先度)を規定しているという事実によって保証されます。例えば、魚にとって水中にいることなどです。第三に、この形式主義を使用すると、最適な行動(事前優先度に関して)を、知覚と行動の(ベイズ的な)モデルエビデンスの最大化として記述できますモデルエビデンスを最大化する(つまり自己証明する)ことで、生物は事前優先度を達成し(例:魚が水中に留まる)、驚くべき状態を避けます。その結果、モデルエビデンスの最大化は、数学的に(おおよそ)変分自由エネルギーの最小化と等価です。したがって、再び(別の方法で)第2章で議論した積極的推論の同じ中心構造に到達します。最後に、驚くべき状態の最小化とハミルトンの最小作用の原理との関係を詳述します。これは、積極的推論と統計物理学の第一原理との間の正式な関係を実証します

第4章では、積極的推論の形式的側面を概説しました。ベイズ推論から処理しやすい近似である変分推論への移行、および生物が知覚と行動を介して変分自由エネルギーを最小化するという最終目標に焦点を当てました。これにより、生物が世界を理解するために使用する生成(世界)モデルの重要性が導き出されます。データの生成方法に関する信念を表現するために、離散変数または連続変数を使用する2つの生成(世界)モデルを導入しました。両方とも同じ積極的推論を提供しますが、それぞれ離散時間(部分的に観測されたマルコフ決定問題など)または連続時間(確率的微分方程式など)で事態が表現される状況に適用されることを説明しました。

第5章では、自由エネルギー最小化の規範原理と、脳がこの原理をどのように実装するかという過程理論との違いについてコメントし、後者がテスト可能な予測を生み出すことを説明しました。次に、積極的推論に付随する過程理論の様々な側面を概説しました。これには、神経解剖学的回路(例えば、皮質-皮質下ループ)や神経変調を含む、ニューロンのメッセージ伝達などの領域が含まれます。例えば、解剖学的レベルでは、メッセージ伝達は、ある層の深層皮質層から始まり、その下にある層の表層皮質をターゲットとする予測を持つ典型的な皮質微小回路によく対応しています(Bastos et al., 2012)。より体系的なレベルでは、ベイズ推論、学習、精度重み付けがそれぞれニューロンダイナミクス、シナプス可塑性、神経変調にどのように対応しているか、また予測符号化のトップダウンおよびボトムアップの神経メッセージ伝達が、より遅い(例えば、アルファまたはベータ)およびより速い(例えば、ガンマ)脳のリズムにどのようにマッピングされるかについて議論しました。これらの例やその他の例は、特定の積極的推論モデルを設計した後、その生成世界モデルの形式から神経生物学的な意味合いを引き出すことができることを示しています。

第6章では、積極的推論モデルを設計するためのレシピを提供しました。すべての生物は変分自由エネルギーを最小化しますが、異なる生成モデルが与えられているため、異なる、時には逆の方法で振る舞います。したがって、異なる(例えば、単純なものと複雑なもの)生物を区別するのは、その生成モデルが異なることだけです豊富な生成モデルの可能性があるため、これらは異なる生物学的(例えば、神経学的)実装に対応し、異なる環境やニッチで異なる適応的または不適応的な行動を生み出します。これにより、積極的推論は、栄養勾配を感知して探す細菌のような単純な生物を表現するのにも同様に適用できます。私たちのような複雑な目標を追求し、豊かな文化的な実践に従事する複雑な生物、さらには個々の異なる存在も、それぞれの特徴的な生成モデルを適切に表現する限り、同様に適用できます。進化は、生物が豊かなニッチを処理し(そして形成し)できるように、ますます複雑な脳と体の設計構造を発見したようです。モデル作成者はこのプロセスをリバースエンジニアリングし、関心のある生物が占めるニッチの種類に応じて、生成モデルの形で脳と体の設計を指定できます。これは、さまざまな設計選択(例えば、離散的または分類変数を使用するモデル、浅いまたは階層的なモデル)に対応しており、本章で解剖しました。

第7章第8章では、知覚推論、目標指向ナビゲーション、モデル学習、動作制御などの問題を扱う、離散時間および連続時間の積極的推論モデルの豊富な例を多数提供しました。これらの例は、これらのモデルの下で様々な緊急的な行動がどのように発生するか、また実際にそれらの原則をどのように指定するかを詳述することを目的としていました。

第9章では、積極的推論を用いてモデルベースのデータ分析を行う方法、および個々の生成モデルのパラメータを回復することで、タスクにおけるエージェントの行動をよりよく説明する方法について議論しました。この計算表現型分析は、本書の残りの部分で議論されたベイズ推論と同じ形式を使用しますが、異なる方法で:それは他者(主観的)モデルの(客観的)モデルの設計と評価を助けます。

10.3 繋がる点:積極的推論の統合的視点

数十年前、哲学者ダネットは、認知科学者が、その境界がしばしば恣意的な孤立したサブシステム(例えば、知覚、言語理解)のモデル化に多くの労力を費やしていると嘆きました彼は、「イグアナ全体」をモデル化しようと提案しました。これは、完全な認知生物(おそらく単純な生物)と、それが対処しなければならない環境ニッチです(Dennett, 1978)。

積極的推論の利点の一つは、生物が適応問題を解決する方法について第一原理から説明することです。本書で追求されている規範的なアプローチは、変分自由エネルギー最小化の原理から出発し、知覚、行動選択、注意、感情調節、およびそれらの神経基盤といった特定の認知プロセスに関する含意を導き出すことができると仮定しています

食物や避難所を見つけるなどの問題を解決しなければならない単純な生物を想像してみてください。積極的推論の観点から考えると、その生物の問題は、好ましい感覚(例えば、食物関連の感覚)を得るために行動を起こすという積極的な言葉で記述できます。ある意味で、これらの好ましい感覚はその生成モデルに(事前信念として)含まれており、生物は効果的にそのモデルの証拠、またはより寓話的に、その存在の証拠を集めている(つまり、モデルエビデンスまたは自己証拠を最大化している)のです。この単純な原理は、伝統的に個別に考えられてきた心理的機能、例えば知覚、動作制御、記憶、注意、意図、感情などに影響を与えます。例えば、知覚と行動はどちらも自己証明的です。なぜなら、生物は信念(食物の存在について)を変えることによって、あるいは世界を変えることによって、自分の期待(生成モデルを与えられたもの)を自分が知覚するものと結びつけることができるからです(食物関連の感覚を追求する)。記憶と注意も、同じ目標を最適化するものと見なすことができます。長期記憶は、生成モデルのパラメータを学習することによって発達します。信念が過去と未来の外部状態に関するものである場合、作業記憶は信念の更新です。注意は、感覚入力の精度の信念の最適化です。計画(と意図)の形式は、代替的な将来の中から選択する(ある種の)生物の能力に訴えることによって概念化できます。これは、時間深度を持つ生成モデルを必要とします。これらは、一連の行動がもたらす結果を予測し、これらの結果について楽観的です。この楽観主義は、将来の結果が好ましい結果につながると信じることとして現れます。深層時間モデルは、複雑な形式の展望(現在の信念が将来の信念を導き出すために使用される)と回顧(現在の信念が過去の信念を更新するために使用される)を理解するのにも役立ちます。内部生理学の生成モデルに訴えることによって、内受容調節と感情の形式を概念化できます。このモデルは、将来の出来事のアロスタシス的な結果を予測します。

上記の例が示すように、感情的な行動の規範理論の観点から認知と行動を研究することには、重要な結果があります。この理論は、知覚、意思決定、計画などの個別の認知機能を組み立てることから始まりません。むしろ、生物が解決しなければならない問題に対する完全な解決策を提供することから始まり、次にその解決策を分析して認知機能に関する含意を導き出します。例えば、どのようなメカニズムが、生物や人工生物(例えばロボット)が世界を知覚し、世界を記憶し、計画することを可能にするのでしょうか(Verschure et al., 2003, 2014; Verschure, 2012; Pezzulo, Barsalou et al., 2013; Krakauer et al., 2017)?これは重要なことです。心理学や神経科学の教科書で使用されている認知機能の分類法は、初期の哲学や心理学の理論(時にはジェームズ主義のカテゴリーと呼ばれる)から大きく受け継がれていますが、この傾向は変化しつつあります。それらは大きな発見的価値を持つものの、かなり恣意的であったり、個別の認知および神経プロセスに対応していない可能性があります(Pezzulo and Cisek, 2016; Buzsaki, 2019; Cisek, 2019)。実際、これらのジェームズ的なカテゴリーは、私たちの生成モデルが感覚中枢との関与をどのように説明するかについての候補であるかもしれません。例えば、「私は知覚している」という独我論的な仮定は、私の信念の更新を含む、現在の状況に対する私の解釈にすぎません。

規範的な視点を採用することは、異なる分野で研究されている認知現象間の形式的な類似性を特定するのにも役立つかもしれません

一例として、探査と活用(exploration and exploitation)のトレードオフがあります。これは様々な形で現れます(Hills et al., 2015)。このトレードオフは、生物が以前の成功した計画を活用するか、新しい(おそらくより良い)計画を探査するかを選択しなければならない採餌中に頻繁に研究されます。しかし、同じトレードオフは、生物が現在の最良の計画を活用するか、他の可能性を探るためにより多くの時間と認知的な努力を費やすかを選択できる場合、記憶探索中や熟考中にも発生します。自由エネルギーでこれらの明らかに無関係な現象を特徴づけることで、深層の類似性が明らかになるかもしれません(Friston, Rigoli et al., 2015; Pezzulo, Cartoni et al., 2016; Gottwald and Braun, 2020)。最後に、心理現象の統一された視点に加えて、積極的推論は、対応する神経計算を理解するための原理的なアプローチも提供します。言い換えれば、認知処理を(予測される)ニューロンのダイナミクスと結びつけるプロセス理論を提供します積極的推論は、脳、心、行動に関連するすべての行動は、自由変分を最小化することで記述できると仮定します。その結果、この最小化は、経験的に検証可能な特定の神経学的特徴(例えば、メッセージ伝達や脳の解剖学に関して)を持ちます。本章の残りの部分では、心理学の教科書を作成するように、積極的推論が心理機能に与える影響の一部を探ります。各機能について、積極的推論と文献で他の一般的な理論との間の関連性(または相違点)も強調します。

画像

10.4 予測脳、予測心、予測処理(準最適)

純粋な喜びの絵がある

それは銃を持った子供だ

彼はまっすぐ前に向かって狙いを定めている

そこにない何かを撃っている。

—アフターアワーズ、「Quello che non c'è」(そこにないもの)

伝統的な脳と認知の理論は、外部刺激から内部表象への順方向の変換、その後の運動動作への変換を強調しています。これは「サンドイッチモデル」と呼ばれ、刺激と反応の間のすべてが「認知」とラベル付けされます(Hurley, 2008)。この視点から見ると、脳の主要な機能は、入力される刺激を状況に応じた反応に変換することです。積極的推論は、この視点とは大きく異なり、脳と認知の予測的および目標指向的な側面を強調しています。心理学用語で言えば、積極的推論を行う生物(またはその脳)は確率推論機械であり、生成モデルに基づいて絶えず予測を生成します。自己証明を行う生物は、予測を2つの基本的な方法で使用します。まず、予測を入力データと比較して仮説を検証し(予測符号化)、より遅い時間スケールでモデルを修正します(学習)第二に、データを収集する方法を導くために予測を策定します(積極的推論)。そうすることで、積極的推論を行う生物は、認知(例えば、視覚的な探索は、仮説やモデルの不確実性を解決する上で重要な情報がある場所で行われる)と実用性(例えば、好ましい観察(報酬など)が行われる場所に移動する。安全性)という2つの必要条件を満たします認知的な要件は知覚と学習プロセスを活性化させ、実用的な要件は行動を目標指向的にします

10.4.1 予測処理

この予測的で目標中心的な脳と認知の視点は、予測処理(PP)と密接に関連しており(また、PPにインスピレーションを与えています)。これは、予測を脳と認知の核心と見なし、「予測的脳」または「予測的心」の概念に訴える、心の哲学と認識論における新しいフレームワークです(Clark, 2013, 2015; Hohwy, 2013)。PP理論は、生成モデル、予測符号化、自由エネルギー、精度制御、マルコフブランケットなど、積極的推論の特定の機能やその構造の一部に訴えることもありますが、積極的推論の一部ではない結合逆モデルや結合順モデルなどの他の構造に訴えることもあります。したがって、「予測処理」という用語は、積極的推論よりも広範な意味を持ちます(そして制約が少ないです)

予測処理理論は哲学において広く注目を集めています。なぜなら、それらは知覚、行動、学習、精神病理学を含む複数の認知領域を横断し、低レベル(例えば、感覚運動)から高レベルの認知処理(例えば、心的構造)まで、単純な生物有機体から脳、個人、さらには社会や文化構造まで、多くの意味で統一的な可能性を持っているからです。PP理論のもう一つの魅力は、信念や驚きといった概念用語を使用していることです。これは、哲学者が慣れ親しんだ精神分析レベルに関わるものです(これらの用語が通常の用法とは異なる技術的な意味を持つ場合があることに注意が必要です)。しかし、PPへの関心が高まるにつれて、哲学者の間では、その理論的および認識論的含意について意見の相違があることがますます明らかになっています。例えば、それは内在主義(Hohwy, 2013)、具現化されたもの、または行動に基づくもの(Clark, 2015)、さらには行動主義的および非表象的用語(Bruineberg et al., 2016; Ramstead et al., 2019)として解釈されています。これらの概念的解釈をめぐる論争は本書の範囲を超えています。

10.5 知覚

想像力が焦点が合っていないとき、あなたは自分の目に頼ることはできません。

—マーク・トウェイン

積極的推論は、知覚を感覚観察がどのように生成されるかについての生成モデルに基づいた推論プロセスと見なしますベイズの規則は本質的にモデルを反転させ、観察に基づいて環境の隠れた状態に関する信念を計算します。この「推論としての知覚」という考え方は、ヘルムホルツ(Helmholtz, 1866)にまで遡り、心理学、計算神経科学、機械学習(例えば、テキストベースのCAPTCHAを破るなど)で頻繁に再提案されています(George et al., 2017)。

10.5.1 ベイズ脳仮説(準最適)

この考えの最も顕著な現代的表現は、ベイズ脳仮説であり、意思決定、感覚処理、学習など、複数の領域に適用されています(Doya, 2007)。積極的推論は、変分自由エネルギーの最小化の要件を導き出すことによって、これらの推論的アイデアに規範的な基礎を提供します。同じ命令が動作力学にも及ぶため、積極的推論は、生物が仮説をテストするために観察を積極的にサンプリングする方法である積極的知覚を自然にモデル化します(Gregory, 1980)。対照的に、ベイズ脳の課題の下では、知覚と行動は異なる命令に基づいてモデル化されます(行動はベイズ意思決定理論を必要とします。セクション10.7.1を参照)。より広範に言えば、ベイズ脳仮説は、必ずしも統合されておらず、しばしば異なる経験的予測をする一連のアプローチを指します。例えば、これらには、脳がベイズ最適な感覚運動と多感覚統合を実行するという計算レベルの提案(Kording and Wolpert, 2006)、脳が意思決定をサンプリングによって実現するなど、特定の近似ベイズ推論を実装するというアルゴリズムレベルの提案(Stewart et al., 2006)、および神経集団が確率計算を実行する方法や確率分布を符号化する方法に関する神経レベルの提案(例えば、サンプルや確率集団符号として)(Fiser et al., 2006; Pouget et al., 2013)が含まれます。各説明レベルには、競合する理論があります。例えば、最適行動からの逸脱を説明するために、しばしば正確なベイズ推論の近似が用いられますが、異なる研究では、異なる(そして必ずしも互換性のない)近似、例えば異なるサンプリング方法が考慮されます。より広範に言えば、異なるレベルの提案間の関係は必ずしも直接的ではありません。これは、ベイズ計算が複数のアルゴリズム的方法で実装(または近似)できるためであり、確率分布を明示的に表現していなくても可能です(Aitchison and Lengyel, 2017)。

積極的推論は、規範的な原則とプロセス理論を結びつける、より統合的な視点を提供します規範的なレベルでは、その核心的な仮定は、すべてのプロセスが変分自由エネルギーを最小化することです。対応する推論プロセス理論は、自由エネルギーの勾配降下を使用し、第5章で探求された明確な神経生理学的含意を持ちます(Friston, FitzGerald et al., 2016)。より広範に言えば、自由エネルギー最小化の原理から、脳のアーキテクチャへの影響を導き出すことができます。例えば、知覚推論の規範的なプロセスモデル(連続時間の場合)は予測符号化です。予測符号化は、当初、RaoとBallard(1999)によって、一連の記録されたトップダウン効果を説明するための階層的知覚処理理論として提案されました。これらの効果は、順方向アーキテクチャや既知の生理的事実(例えば、感覚階層における順方向またはボトムアップおよび逆方向またはトップダウンの接続の存在)と整合させるのが困難でしたしかし、ラプラス近似などの特定の仮定の下では(Friston, 2005)、予測符号化は自由エネルギー最小化の原理から導き出すことができます。さらに、連続時間の積極的推論は、予測符号化に運動反射を与えることによって、動作領域への方向性のある拡張として構成できます(Shipp et al., 2013)。これにより、次の点に進みます。

10.6 動作制御

飛べないなら走れ、走れないなら歩け、歩けないなら這いずり回れ、

だが、何をするにしても前進し続けなければならない。

—マーティン・ルーサー・キング・ジュニア

積極的推論では、動作処理は知覚処理に似ています。両方とも順方向予測(それぞれ外受容性と固有受容性)によって導かれます。「私の手がカップを掴む」という(固有受容性)予測が掴む動作を引き起こします。動作と知覚の等価性は神経生物学的レベルにも存在します。運動皮質は感覚皮質と同じように組織されています。予測符号化構造として、違いは脳幹や脊髄の運動反射に影響を与えることができるという点です(Shipp et al., 2013)。また、受け取る上位からの入力が比較的少ないという点です。運動反射は、目的の方向に「平衡点」を設定することによって運動軌道を制御することを可能にします。これは、平衡点仮説の考え方に対応します(Feldman, 2009)。重要なのは、動作(例えば、カップを掴む)を開始するには、事前信念と感覚入力の流れの精度(逆分散)を適切に調整する必要があるということです。なぜなら、これらの精度の相対的な値が、生物が事前信念(カップを掴んでいる)と感覚入力(カップを掴んでいないことを示す)との間の矛盾をどのように処理するかを決定するからです。矛盾する感覚的証拠に直面して、カップを掴むことに関する不正確な事前信念は簡単に修正され、行動を起こすことなく考えを変える結果となります。対照的に、事前信念が優勢である(つまり、より高い精度を持つ)場合、たとえ矛盾する感覚的証拠に直面しても維持され、矛盾を解決する掴む行動が誘発されますこれを確実にするために、動作開始は一時的な感覚減衰(または感覚予測誤差の重みの低下)を引き起こします。この感覚減衰の失敗は、動作を開始したり制御したりできないなど、不適応な結果をもたらす可能性があります(Brown et al., 2013)。

10.6.1 観念運動理論

積極的推論では、行動は運動指令ではなく(固有受容性)予測から生じます(Adams, Shipp, and Friston, 2013)。この考えは、積極的推論と行動の観念運動理論を結びつけます。これは、ウィリアム・ジェームズ(1890)にまで遡る行動制御のフレームワークであり、後の「イベントエンコーディング」および「期待に基づく行動制御」理論(Hommel et al., 2001; Hoffmann, 2003)にもつながります。観念運動理論は、行動-結果の結合(順モデルに類似)が認知アーキテクチャにおける重要なメカニズムであることを示唆しています。重要なのは、これらの結合が双方向で使用できることです。行動-結果の方向で使用される場合、感覚予測の生成を可能にします。結果-行動の方向で使用される場合、望ましい感覚結果を達成する行動の選択を可能にします。これは、行動がその予測される結果に基づいて選択され、制御されることを意味します(したがって、「観念+運動」と呼ばれる)。この行動制御の予測的視点は、(予測される)行動の結果が行動選択と実行に与える影響を記録した多くの文献によって支持されています(Kunde et al., 2004)。積極的推論は、この考えの数学的な特徴付けを提供し、精度制御や感覚減衰の重要性など、観念運動理論では十分に研究されていない(しかし、観念運動理論と互換性のある)他のメカニズムも含まれています

10.6.2 制御理論

積極的推論は、TOTE(テスト、操作、テスト、終了)モデルおよび関連する例が示すように、行動の目的的、目標指向的性質、および(フィードバックに基づく)エージェントと環境との相互作用の重要性に関わるサイバネティクスの考え方と密接に関連しています(Miller et al., 1960; Pezzulo, Baldassarre et al., 2006)。TOTEと積極的推論の両方において、行動の選択は、好ましい(目標)状態と現在の状態との間の差異によって決定されますこれらのアプローチは、行動主義理論や強化学習などの計算フレームワークでより一般的に仮定される単純な刺激-反応関係とは異なります(Sutton and Barto, 1998)。

積極的推論における動作制御の概念は、特に知覚制御理論(Powers, 1973)に類似しています。知覚制御理論の核心的な概念は、制御されるのは知覚状態であり、運動出力や動作ではないということです。運転中に私たちが制御し、妨害があっても安定を保つのは、速度計が示す参照または望ましい速度(例えば、時速90マイル)であり、そのために選択する動作(例えば、加速または減速)はより変化しやすく、文脈に依存します。例えば、妨害(例えば、風、急な坂道、他の車)に応じて、参照速度を維持するために加速または減速する必要があります。この見解は、ウィリアム・ジェームズ(1890)の「人間は柔軟な手段によって安定した目標を達成する」という提案を実現しています。

積極的推論と知覚制御理論の両方において、行動を制御するのは知覚(特に固有受容性)予測ですが、これら2つの理論は、制御がどのように操作されるかという点で異なります。積極的推論(知覚制御理論ではない)では、動作制御は生成モデルに基づいた予測的または順方向的な側面を持ちます対照的に、知覚制御理論は、フィードバックメカニズムが行動を制御するのに概ね十分であり、妨害を予測したり、順方向(または開ループ)制御を適用しようとすることは無価値であると仮定します。ただし、この反対意見は主に、逆制御理論の限界を順モデルを用いて解決すること(次節を参照)を指しています。積極的推論では、生成モデルまたは順モデルは妨害を予測するために使用されるのではなく、将来の(望ましい)状態と行動によって達成される軌道を予測し、知覚イベントの潜在的な原因を推測するために使用されます

最後に、積極的推論と知覚制御理論のもう一つの重要な接点は、制御の階層構造を概念化する方法です知覚制御理論は、高次のレベルが低次のレベルを制御するのは、参照点または設定点(つまり、達成すべき目標)を設定することによってであり、低次のレベルが実行すべき行動(つまり、どのように操作するか)を設定したり、偏らせたりすることによってではないと提案していますこれは、高次のレベルが直接計画を選択する(Botvinick, 2008)か、低次のレベルの行動または運動指令の選択を偏らせる(Miller and Cohen, 2001)ようなほとんどの階層的およびトップダウン制御理論とは対照的です知覚制御理論と同様に、積極的推論では、目標とサブ目標の(トップダウン)カスケードとして階層的制御を分解することができ、これらは適切な(低次の)レベルで自律的に達成することができます。さらに、積極的推論では、制御階層の異なるレベルによって表される目標の貢献は、動機付けプロセス(精度重み付け)によって調整され、より顕著またはより緊急な目標を優先することができます(Pezzulo, Rigoli, and Friston, 2015, 2018)。

10.6.3 最適制御理論

積極的推論が動作制御を説明する方法は、神経科学における他の制御モデル、例えば最適制御理論(Todorov, 2004; Shadmehr et al., 2010)とは大きく異なりますこのフレームワークは、脳の運動皮質が、刺激を反応にマッピングする(反応的な)制御戦略を使用して動作を選択すると仮定します対照的に、積極的推論は、運動皮質が命令ではなく予測を伝達すると仮定します。さらに、最適制御理論と積極的推論の両方が内部モデルに訴えるものの、それらは内部モデルを異なる方法で記述します(Friston, 2011)。最適制御では、2つの内部モデルが区別されます。逆モデルは刺激-反応の偶然を符号化し、運動命令を選択し(あるコスト関数に従って)、順モデルは行動-結果の偶然を符号化し、ノイズや遅延フィードバックの代わりに逆モデルにシミュレーション結果の入力を提供することで、純粋なフィードバック制御スキームを超えます。逆モデルと順モデルは、外部の動作知覚とは分離したループでも機能し(つまり、入力と出力が抑制されている場合)、動作シーケンスの内部的な「仮説的な」シミュレーションをサポートします。この動作の内部シミュレーションは、計画、動作知覚、社会領域における模倣(Jeannerod, 2001; Wolpert et al., 2003)や、さまざまな運動障害や精神病理学(Frith et al., 2000)など、さまざまな認知機能に関連しています。

順方向-逆方向モデリングスキームとは対照的に、積極的推論では、順方向(生成)モデルが動作制御の大部分を担当し、逆モデルは非常に単純で、通常は末梢レベル(つまり、脳幹または脳内)で解決される単純な反射に還元されます望ましい状態と観測された状態(例えば、望ましい、現在の腕の位置)の間に差異がある場合、すなわち感覚予測誤差がある場合に、行動が開始されます。これは、モーターコマンドが順モデルによってなされた予測に相当し、最適制御における逆モデルによって計算された結果ではないことを意味します。感覚(より正確には固有受容性)予測誤差は、行動(すなわち腕の動き)によって解決されます。行動によって埋められるギャップは非常に小さいため、複雑な逆モデルは必要なく、はるかに単純な運動反射が必要であると考えられています(Adams, Shipp, and Friston, 2013)。運動反射が逆モデルよりも単純である理由は、それが推論された世界の状態から行動へのマッピングを符号化するのではなく、行動と感覚結果との間のより単純なマッピングを符号化するからです。詳細については、Friston, Daunizeau et al. (2010)を参照してください。最適なモーター制御と積極的制御の間のもう一つの重要な違いは、前者が行動を動機付けるためにコストまたは価値関数の概念を使用するのに対し、後者はそれをベイズ事前確率の概念(または、期待自由エネルギーに暗黙的に含まれる事前好み)に置き換えるということです。これは次節で説明します。

10.7 効用と意思決定

行動は優先順位を表現する。

—マハトマ・ガンジー

状態コストまたは価値関数の概念は、最適運動制御、効用最大化の経済理論、強化学習など、多くの分野で核心をなしています。例えば、最適制御理論では、タスクの最適制御戦略は、特定のコスト関数(例えば、より滑らかである、または最小のジャークを持つ)を最小化する戦略として定義されることがよくあります。強化学習問題では、1つ以上の報酬を含む迷路をナビゲートする場合、最適戦略は、移動コストを最小限に抑えながら(割引された)報酬を最大化することを可能にする戦略です。これらの問題は、ベルマン方程式(または連続時間の場合のハミルトン-ヤコビ-ベルマン方程式)を使用して解決されることが多く、その一般的な考え方は、意思決定の問題を2つの部分に分解できるというものです。即時の報酬と意思決定問題の残りの部分の価値です。この分解は、制御理論と強化学習(RL)の核心である動的計画法の反復プロセスを提供します(Bellman, 1954)。

積極的推論は、上記のアプローチとは2つの主要な点で異なります第一に、積極的推論は効用最大化だけでなく、現在の状態の曖昧さを解消し、目新しさを追求するといった他の(認知的)要件も含む、より広範な目標である(期待)自由エネルギー最小化を考慮します(図2.5参照)。これらの追加目標は、古典的な報酬に「目新しさの報酬」(Kakade and Dayan, 2002)や「内在的報酬」(Schmidhuber, 1991; Oudeyer et al., 2007; Baldassarre and Mirolli, 2013; Gottlieb et al., 2013)として追加されることもありますが、積極的推論では自動的に発生し、探査-活用バランスを解決することができますその理由は、自由エネルギーが信念の関数であるため、外部の報酬関数ではなく、信念最適化の領域にあるからです。これは、成功が可能な限り多くの不確実性を解決することに依存する探索的な問題にとって不可欠です

第二に、積極的推論では、コストの概念が事前分布に吸収されます。事前分布(または事前好み)は、追跡すべき軌道や到達すべき終点など、制御目標を指定します。好ましい観察(またはシーケンス)を符号化するために事前分布を使用することは、効用関数を使用するよりも表現力が高い場合があります(Friston, Daunizeau, and Kiebel, 2009)。このアプローチを使用すると、最適戦略の探索は推論問題(好ましい軌道を達成する一連の制御状態)として再定義され、価値関数やベルマン方程式は不要になりますが、再帰的ロジックのような類似のアプローチに訴えることは可能です(Friston, Da Costa et al., 2020)。積極的推論と強化学習で事前関数と価値関数が通常使用される方法には、少なくとも2つの根本的な違いがあります。まず、強化学習方法は状態または状態-行動ペアの価値関数を使用するのに対し、積極的推論は観測の事前分布を使用します。第二に、価値関数は、特定のポリシーに従って状態(または状態での行動)に入ることから得られる期待されるリターン、すなわち、その状態から開始し、その後ポリシーを実行することで得られる将来の(割引された)報酬の合計として定義されます。対照的に、積極的推論では、事前分布は通常、将来の報酬を合計せず、また割引も行いません。むしろ、期待リターンに類似するものが積極的推論で現れるのは、期待自由エネルギーに到達したときだけです。これは、期待自由エネルギーが価値関数に最も近い類推であることを意味します。しかし、それでも、期待自由エネルギーは状態に関する信念の関数であり、状態の関数ではないという点が異なります。とはいえ、RLにおける状態の価値関数に類似する事前分布を構築することは可能です。例えば、これらの状態における期待自由エネルギーの計算をキャッシュすることによってです(Friston, FitzGerald et al., 2016; Maisto, Friston, and Pezzulo, 2019)。

さらに、効用の概念を事前分布に吸収することには重要な理論的結果があります。事前分布は目標の役割を果たし、生成モデルに偏りを与える、あるいは楽観的にする。つまり、生物はより良い結果に遭遇すると信じるのです。この楽観主義こそが、積極的推論において推論された計画を期待された結果に導きます。この楽観主義の欠如は、無関心に対応する可能性があります(Hezemans et al., 2020)。これは、イベントの確率をその効用から切り離すベイズ意思決定理論のような、他の正式な意思決定方法とは対照的です。とはいえ、この区別はいくらか表面的なものにすぎません。なぜなら、効用関数は常に事前信念を符号化するように書き換えられることが可能であり、効用関数を最大化する行動が事前分布(設計上)より可能性が高いという事実と一致するからです。インフレーションの観点から見ると(少し論理から外れますが)、これが効用の定義です。

10.7.1 ベイズ意思決定理論(準最適)

ベイズ意思決定理論は、ベイズ脳の考え方(前述)を意思決定、感覚運動制御、学習の領域に拡張する数学的フレームワークです(Kording and Wolpert, 2006; Shadmehr et al., 2010; Wolpert and Landy, 2012)。ベイズ意思決定理論は、2つの異なるプロセスに基づいて意思決定を記述します。最初のプロセスは、ベイズ計算を使用して将来の(行動または方策に関連する)結果の確率を予測し、2番目のプロセスは、(固定または学習された)効用関数またはコスト関数を使用して計画への優先度を定義します。最終的な意思決定(または行動選択)プロセスは、これら2つの流れを統合し、より高い確率でより高い報酬を生み出す行動計画を(より高い確率で)選択します。これは、事前分布が生物にとって何が価値があるか(または進化の歴史において何が価値があったか)を直接示す積極的推論とは対照的です。しかし、ベイズ意思決定理論の2つの流れは、変分自由エネルギーと期待自由エネルギーの最適化との間にそれぞれ類似点を見出すことができます。積極的推論では、変分自由エネルギーの最小化は、世界の状態とその可能な進化に関する正確な(かつ単純な)信念を提供します。事前の信念は、方策の選択を通じて、期待自由エネルギーが最小化され、これは好みの概念を含みます。

一部の界隈では、ベイズ意思決定理論の地位に懸念が示されています。これは、完全性定理(Wald, 1947; Brown, 1981)から導き出されるもので、任意の与えられた意思決定とコスト関数に対して、ベイズ意思決定を最適にするような事前信念が存在するというものです。これは、事前信念とコスト関数を個別に扱うことにおいて、暗黙的な二重性または縮退が存在することを意味します。ある意味で、積極的推論は、効用またはコスト関数を好みという形式の事前信念に吸収することによって、この縮退を解決します

10.7.2 強化学習(準最適)

強化学習(RL)は、マルコフ決定問題を解決するための方法論であり、人工知能と認知科学の両方で普及しています(Sutton and Barto, 1998)。RLは、エージェントが試行錯誤を通じてポリシーを学習する方法に焦点を当てています(例えば、ポールバランスポリシー):行動を試み(例えば、左に移動)、行動の成功(例えば、ポールのバランス)または失敗(例えば、ポールが倒れる)に応じて、肯定的または否定的な報酬を受け取ることによってです。

積極的推論と強化学習は、重複する一連の問題を解決しますが、数学的にも概念的にも多くの点で異なります。前述のように、積極的推論は、強化学習アプローチの核となる報酬、価値関数、ベルマン最適性の概念を排除します。さらに、「ポリシー」の概念は、両方のフレームワークで異なる方法で使用されます。強化学習では、ポリシーは学習すべき刺激-反応マッピングのセットを表します。積極的推論では、ポリシーは生成モデルの一部です。それは、推論すべき一連の制御状態を表します

強化学習には多くのアプローチがありますが、それらは主に3つの主要なカテゴリに分類できます。最初の2つのアプローチは、良い(状態または状態-行動)価値関数を学習しようとしますが、2つの異なる方法で行われます。

RLのモデルフリーなアプローチは、経験から直接価値関数を学習します。それらは行動を実行し、報酬を収集し、価値関数を更新し、それらを使用してポリシーを更新します。これらがモデルフリーと呼ばれる理由は、将来の状態を予測することを可能にする(遷移)モデルを使用しないためですこれは積極的推論で使用されるものに似ています。代わりに、より単純なモデル(例えば、状態-行動マッピング)に暗黙的に訴えます。モデルフリー強化学習における価値関数の学習は、一般的に、人気のある時間差分規則のように、報酬予測誤差の計算を伴います。積極的推論は頻繁に予測誤差に訴えますが、これらは状態予測誤差です(積極的推論には報酬の概念がないため)。

モデルベースの強化学習アプローチは、経験から価値関数やポリシーを直接学習しません。代わりに、経験からタスクモデルを学習し、そのモデルを使用して計画を立て(可能な経験をシミュレートし)、これらのシミュレートされた経験に基づいて価値関数とポリシーを更新します。積極的推論と強化学習の両方がモデルベースの計画に適していますが、使用方法は異なります。積極的推論では、計画は価値関数を更新する手段ではなく、各ポリシーの期待自由エネルギーを計算する手段です。期待自由エネルギーを価値関数と見なせば、生成モデルから導き出された推論がその関数を更新するために使用されると言え、これによりこれらの方法間の類似点が提供されます。

強化学習アプローチの3番目のカテゴリは、ポリシー勾配法であり、モデルベースおよびモデルフリーの強化学習の核心である中間的な価値関数を必要とせずに、ポリシーを直接最適化しようとします。これらの方法は、運動軌道などを生成できるパラメータ化されたポリシーから始まり、軌道が高い(低い)正の報酬につながる場合にポリシーの可能性を増加(減少)させるようにパラメータを変更することで最適化します。この方法は、価値関数も排除する積極的推論とポリシー勾配法を結びつけます(Millidge, 2019)。しかし、ポリシー勾配の全体的な目標(長期的な累積報酬の最大化)は、積極的推論とは異なります。

積極的推論と強化学習の間には形式的な違いだけでなく、いくつかの重要な概念的な違いも存在します一つの違いは、これら2つの方法が目標指向行動と習慣行動をどのように説明するかという点にあります。動物学習の文献では、目標指向選択は、行動とその結果との間の偶発性についての(将来を見据えた)知識によって媒介されるのに対し(Dickinson and Balleine, 1990)、習慣選択は将来を見据えたものではなく、より単純な(例えば、刺激-反応)メカニズムに依存します。強化学習における一般的な見解は、目標指向選択と習慣選択がそれぞれモデルベースとモデルフリーの強化学習に対応し、これらの選択は並行して獲得され、行動を制御するために絶えず競合するというものです(Daw et al., 2005)。

対照的に、積極的推論は、目標指向選択と習慣選択を異なるメカニズムにマッピングします積極的推論(離散時間)では、ポリシー選択は本質的にモデルベースであり、したがって目標指向の熟慮された選択の定義に適合します。これはモデルベースの強化学習で起こることと似ていますが、異なります。モデルベースの強化学習では、行動は予測的な方法で(モデルを使用して)選択されますが、反応的な方法で(刺激-反応ポリシーを使用して)制御されます。積極的推論では、動作は固有受容予測を達成することによって能動的な方法で制御できます(動作制御についてはセクション10.6を参照)。

積極的推論では、目標指向のポリシーを実行し、その後、どのポリシーがどの文脈で成功したかについての情報をキャッシュすることによって習慣が獲得されますキャッシュされた情報は、ポリシーの事前値に組み込むことができます(Friston, FitzGerald et al., 2016; Maisto, Friston, and Pezzulo, 2019)。このメカニズムにより、より高い事前価値(特定の文脈で)を持つポリシーを熟慮なしに実行できます。これは、「私が何をしたか」を観察し、「私はそうする傾向のある生物だ」と理解することで、単純にタスクに何度も関与することで得られると考えることができます。モデルフリー強化学習では、習慣は目標指向のポリシー選択とは独立して獲得されますが、積極的推論では、習慣は目標指向のポリシーを繰り返し追求することによって獲得されます(例えば、その結果をキャッシュすることによって)

積極的推論では、目標指向メカニズムと習慣メカニズムは、単に競合するだけでなく、協力することができます。これは、ポリシーに関する事前信念が、習慣的な要素(ポリシーの事前価値)と熟慮的な要素(期待自由エネルギー)の両方に依存しているためです。積極的推論の階層的な説明は、反応的メカニズムと目標指向メカニズムが並列パスではなく階層的に配置される可能性があることを示唆しています(Pezzulo, Rigoli, and Friston, 2015)。

最後に、積極的推論と強化学習には微妙な違いがあることに注目すべきです(2012)。これらの方法では、計画は、行動とその原因をどのように見ているかに関する事後分布を推論することによって行われます。強化学習は行動主義理論に由来し、行動は強化によって媒介される試行錯誤学習の結果であると見なします対照的に、積極的推論は、行動は推論の結果であると仮定します。これにより、次の点に進みます。

10.7.3 Planning as Inference

知覚問題を推論問題に変換できるように、制御問題も(近似)ベイズ推論に変換できます(Todorov, 2008)。これと一致して、積極的推論では、計画は推論プロセスと見なされます。すなわち、生成モデルの一連の制御状態について推論を行うことです。この考えは、制御としての推論(Rawlik et al., 2013; Levine, 2018)、推論としての計画(Attias, 2003; Botvinick and Toussaint, 2012)、リスク感応型およびKL制御(Carbone et al., 2012)など、他の方法と密接に関連しています。計画は、状態、行動、および将来(期待される)状態の間の確率的な偶然性を符号化する動的生成モデルを使用して、行動または行動シーケンスの事後分布を推論することによって行われます。最適な行動または計画は、将来のリターンに関する条件付き生成モデル(Pezzulo and Rigoli, 2011; Solway and Botvinick, 2012)または最適な将来の軌道(Levine, 2018)を観察することによって推論できます。例えば、モデル内の将来の期待状態を固定し(つまり、その値を固定し)、現在の状態から将来の期待状態へのギャップを埋める可能性が高い行動シーケンスを推論することができます。

積極的推論、推論としての計画、およびその他の関連スキームは、刺激-反応規則やポリシーのセットからではなく、将来の観測すべき状態の明確な表現から始まる予測制御の形式を使用します。これは最適制御理論や強化学習でより一般的です。しかし、制御と計画としての推論の具体的な実装は、少なくとも3つの側面で異なります。すなわち、どのような形式の推論を使用するか(例えば、サンプリングまたは変分推論)、何を推論するか(例えば、行動または行動シーケンスの事後分布)、そして推論の目標(例えば、最適条件の周辺尤度を最大化するか、報酬を得る確率を最大化するか)です。

積極的推論は、各側面で独自の視点を持っています

第一に、それは、推論としての計画プロセスで生じる困難な計算問題を解決するために、拡張可能な近似スキーム(変分推論)を使用します。第二にモデルベースの計画、または行動シーケンスやポリシーに対応する制御状態の事後推論を提供します。これは単一の行動ではありません。第三に、行動シーケンスを推論するために、積極的推論は期待自由エネルギー関数を考慮します。これは、数学的に他の広く使用されている推論としての計画スキーム(例えば、KL制御)を含み、曖昧な状況を処理できます(Friston, Rigoli et al., 2015)。

10.8 行動と限定合理性

賢者は理性によって教えられ、凡人は経験によって、愚者は必要性によって、野獣は本能によって教えられる。

—マルクス・トゥッリウス・キケロ

積極的推論における行動は、熟慮的、持続的、習慣的という複数の要素を自動的に結合します(Parr, 2020)。近所の店に向かっている人を想像してみてください。彼女が自分の行動の結果を予測できるなら(例えば、左に曲がるか右に曲がるか)、店に到達するための良い計画を立てることができます。この熟慮された行動は、期待される自由エネルギーによって提供され、好ましい観察(例えば、店にいること)を達成するために特定の方法で行動するときに最小化されます。期待される自由エネルギーは、不確実性を減らすための動機も含まれており、これは熟慮において具現化される可能性があります。例えば、その人が最適な方向について不確実な場合、彼女は適切な場所に移り、そこから店への道が容易に見つかるように移動できます。たとえそれがより長いルートを意味するとしてもです。簡単に言えば、彼女の計画は認知的なアフォーダンスを獲得します。

もしその人が熟慮する能力が低い場合(例えば、気が散っているため)、店に着いた後も歩き続けるかもしれません。このような行動の持続性は変分自由エネルギーによって提供され、現在の信念(現在の行動プロセスに関する信念を含む)と一致する観察を収集すると最小化されます。収集された感覚および先行固有受容の観察は「歩いている」という証拠を提供し、したがって、熟慮なしに持続性を決定することができます

最後に、この人が熟慮する能力があまりない場合、彼ができるもう一つのことは、考えずに通常通り家に帰る計画を選択することです。この習慣的な要素は、ポリシーの事前値によって提供されますこれは、家に帰る計画に高い確率を割り当てる可能性があります。彼女は、熟慮なしにその計画を何度も実行したことを観察している場合、それが優勢になる可能性があります

行動の熟慮的、持続的、習慣的な側面は共存し、積極的推論において結合できることに注意してください。言い換えれば、私たちは、そのような状況では、ある習慣が最も可能性の高い行動方針であると推論することができます。これは、私たちを駆動する2つの独立したシステム、すなわち理性的システムと直感的システムを仮定する「二重理論」とは異なります(Kahneman, 2017)。行動の熟慮的、持続的、習慣的な側面の混合は、文脈的条件、例えば高い複雑性コストを伴う可能性のある熟慮プロセスにどれだけの経験と認知資源を投入できるかによって異なるようです

認知資源が意思決定に与える影響は、限定合理性の枠組みで広く研究されています(Simon, 1990)。その核心的な考えは、理想的な合理的エージェントは常にその行動の結果を十分に考慮すべきである一方で、限定合理的エージェントは、計算のコスト、労力、および適時性のバランスを取る必要があるということです。例えば、最適計画を熟慮するための情報処理コスト(Todorov, 2009; Gershman et al., 2015)です。

10.8.1 限定合理性の自由エネルギー理論

限定合理性は、ヘルムホルツ自由エネルギー最小化の観点から表現されます。これは、積極的推論で用いられる変分自由エネルギーの概念と厳密に関連する熱力学的構造です(詳細については、Gottwald and Braun, 2020を参照)。「限定合理性の自由エネルギー理論」は、自由エネルギーの2つの構成要素、すなわちエネルギーとエントロピーに基づいて、行動選択と限定された情報処理能力とのトレードオフを詳述しています(第2章参照)。前者は選択の期待価値(精度項)を表し、後者は熟慮のコスト(複雑性項)を表します。熟慮プロセス中、コストがかかるのは、信念がより正確になる前に、信念のエントロピー(または複雑性)を減らすことです(Ortega and Braun, 2013; Zénon et al., 2019)。直感的に、より正確な事後信念を持つ選択はより正確になります(そしておそらくより高い効用を必要とします)が、信念の精度を高めるにはコストがかかるため、限定された意思決定者はトレードオフを見つけなければなりません。自由エネルギーを最小化することによって。同じトレードオフは積極的推論にも現れ、限定合理性の形式を生み出します。限定合理性の概念は、積極的推論の決定的な側面である証拠変分下限(または周辺尤度)の使用とも共鳴します。要するに、積極的推論は、(限定された)合理性と最適性のモデルを提供し、そこでは与えられた問題に対する最適な解決策が、精度と複雑性という補完的な目標間のトレードオフから生じます。これらの目標は、経済理論で通常考慮される古典的な目標(例えば、効用最大化)よりも豊かな、規範的(自由エネルギー最小化)な要件から派生しています

10.9 Valence, Emotion, and Motivation

汝らの起源を顧みよ:汝らは獣として生きるために作られたのではなく、徳と知識に従うために作られたのだ。

—ダンテ・アリギエーリ

積極的推論は、(負の)自由エネルギーを適応性および有機体がその目標を達成する能力の尺度として重視します。積極的推論は生物が自由エネルギーを最小化するために行動すると提案していますが、これは生物がそれを計算する必要があるという意味ではありません。一般に、自由エネルギーの勾配を処理するだけで十分です。類推すると、私たちは山の頂上を見つけるために高度を知る必要はなく、ただ斜面を上っていけばよいのです。しかし、一部の者は、生物が自由エネルギーが時間とともにどのように変化するかをモデル化できると提案しています。この仮説の支持者は、それが価数、感情、動機付けなどの現象の表現を可能にするかもしれないと主張しています。

この視点によれば、感情的価数、つまり感情の肯定的または否定的性質は、自由エネルギーの時間変化率(一階微分)として見なすことができると提案されています(Joffily and Coricelli, 2013)。

具体的には、生物の自由エネルギーが時間とともに増加する場合、その状況に負の価数を割り当てる可能性があり、自由エネルギーが時間とともに減少する場合は、正の価数を割り当てる可能性があります。この考え方を自由エネルギーの長期的なダイナミクス(および二階微分)に拡張すると、複雑な感情状態を記述できるかもしれません。例えば、低い価数から高い価数への移行による安堵感や、高い価数から低い価数への移行による失望感などです。自由エネルギーのダイナミクス(およびそれが引き起こす感情状態)を監視することで、長期的な環境統計に基づいて行動戦略や学習率を調整できる可能性があります

2番目の生成モデルが最初の生成モデルの自由エネルギーを監視する役割を持つと仮定することは、少し飛躍しているように見えるかもしれません。しかし、これらの考え方は別の方法でも説明できます。これらの視点の興味深い定式化は、自由エネルギーの急速な変化は何が原因であるかを考えることにあります。それは信念の関数であるため、自由エネルギーの急速な変化は信念の急速な更新によるものであるに違いありません。この速度の重要な決定要因は精度であり、予測符号化のダイナミクスにおいて時定数として機能します。興味深いことに、これは自由エネルギーの高階導関数の概念に関連しています。なぜなら、精度は2階導関数の負の値だからです(つまり、自由エネルギーランドスケープの曲率です)。しかし、これはなぜ精度と価数を関連付けるべきかという疑問を引き起こします。答えは、精度が曖昧さに反比例することに注目することから得られます物事が正確であればあるほど、その解釈は曖昧でなくなります。期待自由エネルギーを最小化する行動方針を選択することは、曖昧さを最小化し、したがって精度を最大化することも意味します。ここで、自由エネルギーの高階導関数、その変化率、および動機付け行動の間に直接的な関連があることがわかります

自由エネルギーに対する期待(増加または減少)も、動機付けの役割を果たし、行動を動機付ける可能性があります。積極的推論では、エージェントの自由エネルギー変化(増加または減少)に対する期待は、ポリシー信念の精度です。これは、2次統計の重要性を再び強調しています。例えば、非常に正確な信念は、優れたポリシー、つまり自由エネルギーを自信を持って最小化できると期待されるポリシーを見つけたことを示唆しています。興味深いことに、ポリシー(信念)の精度はドーパミン信号伝達に関連しています(FitzGerald, Dolan, and Friston, 2015)。この視点から見ると、ポリシー信念の精度を高める刺激はドーパミンの爆発を引き起こし、それはそれらの動機付けの顕著性を示している可能性があります(Berridge, 2007)。この見解は、目標または報酬達成の期待と、注意の増加(Anderson et al., 2011)および動機付け(Berridge and Kringelbach, 2011)を結びつける神経生理学的メカニズムを明確にするのに役立つかもしれません

10.10 恒常性、アロスタシス、内受容処理

あなたの最も深い哲学よりも、あなたの体にはより多くの知恵がある。

—フリードリヒ・ニーチェ

生物の生成モデルは、外部世界だけでなく、おそらくさらに重要なことに、内部環境に関係しています身体の内部(または内受容スキーマ)の生成モデルは、二重の役割を担っています。内受容(身体)感覚がどのように生成されるかを説明し、体温や血糖値などの生理的パラメータの適切な調節を保証することです(Iodice et al., 2019)。制御理論(セクション10.6.2で言及)は、生物の中心的目標が恒常性(Cannon, 1929)を維持することであると仮定します。これは、生理的パラメータが実行可能な範囲内(例えば、体温が過度に高くならない)に保たれることを保証し、恒常性は環境の成功した制御によってのみ達成できます(Ashby, 1952)。この形式の恒常性調節は、積極的推論において、内受容観察の事前分布として生理的パラメータの実行可能な範囲を指定することによって実装できます。興味深いことに、恒常性調節は、複数の入れ子になった方法で実現できます。最も単純な調節ループは、特定のパラメータが(予測されるように)範囲外になった場合(例えば、体温が過度に高い場合)に、自律反射(例えば、血管拡張)が関与することです。このような自律制御は、内受容推論として構築できます。これは、外部指向の動作の場合のように固有受容の流れではなく、内受容の流れ上で動作する積極的推論プロセスです(Seth et al., 2012; Seth and Friston, 2016; Allen et al., 2019)。この目的のために、脳は生成モデルを使用して内受容および生理学的な流れを予測し、自律反射をトリガーして内受容予測誤差(例えば、驚くほど高い体温)を修正することができます。これは、固有受容予測誤差を修正し、外部指向の動作を導くために運動反射を活性化する方法に類似しています。

積極的推論は、単純な自律ループを超越します。それは、ますます複雑な方法で同じ内受容予測誤差(高体温)を修正することができます(Pezzulo, Rigoli, and Friston, 2015)。それは、予測的なアロスタシス戦略を用いることができます(Sterling, 2012; Barrett and Simmons, 2015; Corcoran et al., 2020)。恒常性を超えて、内受容予測誤差がトリガーされる前に、例えば、過熱する前に日陰を探すなど、アロスタシス的に生理機能を先制的に制御することができます。別の予測戦略には、生理的設定点からの逸脱を予測する前にリソースを動員することが必要です。例えば、酸素需要の増加を予測して長距離ランニングの前に心拍出量を増やすことです。これは、恒常性を超えて内受容観察の事前分布を動的に変更することを必要とします(Tschantz et al., 2021)。最終的に、予測する脳は、冷たい水をビーチに持っていくことを確実にするような、複雑な目標指向戦略を策定し、同じ要件(体温の制御)をより豊かでより効果的な方法で満たすことができます

生物学的および内受容的調節は、感情および情動処理にとって極めて重要である可能性があります(Barrett, 2017)。文脈的な相互作用のプロセスにおいて、脳の生成モデルは、次に何が起こるかだけでなく、内受容的およびアロスタシス的な結果も絶えず予測します。内受容的な流れは、外部の物体や出来事を認識する際に引き起こされ、それらに感情的な側面を与えます。これは、それらが生物の恒常性および生存にとってどれほど良いか悪いかを示し、それらを「意味のあるもの」にしますもしこの見解が正しければ、このような内受容的およびアロスタシス的処理の障害は、感情失調やさまざまな精神病理学的状態を引き起こす可能性があります(Pezzulo, 2013; Barrett et al., 2016; Barca et al., 2019; Pezzulo, Maisto et al., 2019)。

内受容推論には、情動推論という新たなパートナーがいます。積極的推論のこの応用では、感情は生成モデルの一部であると見なされます。それらは、脳が深層生成において精度を展開するために使用するもう一つの構成要素または仮説に過ぎません。信念の更新の観点から見ると、これは、不安が単に「私は不安である」というベイズ的信念へのコミットメントであり、それが一般的な感覚的および内受容的コホートを最もよく説明するということを意味します。行動の観点から見ると、それに続く(内受容的)予測は、さまざまな精度を増減させ(すなわち、隠れた行動)、または自律的反応を従属させます(すなわち、公然の行動)。

これは覚醒によく似ているように見え、「私は不安である」という仮説を裏付けます。一般に、情動推論は領域横断的な信念の更新を必要とし、内受容的および外受容的感覚の流れからの情報を取り込むため、感情、内受容、および注意の間には密接な関係が存在します(Seth and Friston, 2016; Smith, Lane et al., 2016)。

10.11 注意、顕著性、認知ダイナミクス

真の無知とは知識の欠如ではなく、それを獲得することを拒むことである。

—カール・ポッパー

本章で精度と期待自由エネルギーを何度も言及したことを考えると、これらに少しスペースを割いて注意を向け、強調しないのは怠慢でしょう。これらの概念は心理学全体で繰り返し現れ、何度も再定義され、分類されてきました。これらの用語が、特定の感覚様式や様式内のチャネルのサブセットを優先するシナプス利得制御メカニズムを指すことがあります(Hillyard et al., 1998)。また、世界に関するより多くの情報を得るために、公然または隠然の行動によって自分自身をどのように位置づけるかを指すこともあります(Rizzolatti et al., 1987; Sheliga et al., 1994, 1995)。

注意の多様な意味がもたらす不確実性は、この研究分野の認知的な魅力を証明していますが、それに伴う曖昧さを解決することにも価値があります。心理学の形式的な視点が提供することの一つは、この曖昧さを心配する必要がないということです。私たちは、注意を特定の感覚入力に関連する精度と操作的に定義することができます。これは、より正確であると推論される感覚が、不正確であると推論される感覚よりも、信念の更新により大きな影響を与えるため、利得制御の概念にうまくマッピングされます。この関連性の構成的有効性は、有名なポズナーパラダイムを含む心理学的なパラダイムを通じて示されています(Feldman and Friston, 2010)。具体的には、より高い精度が与えられた視覚空間内の位置にある刺激に対する応答は、他の位置にある刺激に対する応答よりも速いです。

これにより、「顕著性」という用語にも同様の形式的な定義が必要になります。一般的に、積極的推論では、顕著性を期待情報利得(または認知的価値)、すなわち期待自由エネルギーの構成要素と関連付けます直感的には、何かからより多くの情報が得られると期待できる場合、それはより顕著です。しかし、これは行動や方策の顕著性を定義するものであり注意は感覚入力に関する信念の属性です。これは、顕著性を明示的または暗黙的な志向の概念と一致させます。第7章では、期待情報利得をさらに顕著性と目新しさに細分できることを見ました前者は推論の可能性であり、後者は学習の可能性です。注意と顕著性(または目新しさ)の違いを表現する類推は、科学実験の設計と分析です。注意とは、すでに測定されたデータの中から最高品質のデータを選択し、そのデータを使用して仮説検定に情報を提供するプロセスです顕著性とは、最高品質のデータを確保するための次の実験の設計です

画像

私たちは、文献に注意現象の別の再分類を加えるためだけにこの問題を詳細に議論しているのではなく、形式心理学への取り組みの重要な利点を強調するためです。積極的推論の下では、他者が注意(または他の構成要素)を異なる方法で定義するかどうかは重要ではありません。なぜなら、私たちは単純に問題の数学的構成を参照し、混乱を排除できるからです。最後に考慮すべき点は、これらの定義が、なぜ注意と顕著性が頻繁に混同されるのかという単純な説明を提供するということです。非常に正確なデータはほとんど曖昧さがありません。これは、それらに注意が払われるべきであり、これらのデータを取得する行動が非常に重要であることを意味します(Parr and Friston, 2019a)。

10.12 規則学習、因果推論、高速汎化

昨日、私は賢かったので、世界を変えたいと思った。今日、私は賢くなったので、自分を変えている。

—ルーミー

人間や他の動物は、現在の機械と比較して、複雑な因果推論を行い、抽象的な概念とオブジェクト間の因果関係を学習し、限られた経験から汎化することに優れています。現在の機械学習パラダイムは、同様のパフォーマンスを得るために大量の例を必要とします。この違いは、現在の機械学習方法が主に複雑なパターン認識に基づいており、人間の学習と思考の方法を完全に捉えていない可能性があることを示唆しています(Lake et al., 2017)。

積極的推論の学習パラダイムは、行動、出来事、観察の間の因果関係を捉える生成モデルの開発に基づいています。本書では、複雑ではない生成モデルを必要とする比較的単純なタスク(例えば、第7章のT字迷路の例)を検討しました。対照的に、複雑な状況を理解し、推論するには、多くの異なる状況で汎化を可能にする隠れた規則性など、環境の潜在的な構造を捉える深層生成モデルが必要です(Tervo et al., 2016; Friston, Lin et al., 2017)。

複雑な社会的相互作用を支配する隠れた規則の単純な例は、交差点です。忙しい交差点を観察し、歩行者や車がいつ横断するかを予測(または説明)しなければならない素朴な人を想像してみてください。同時に起こる出来事に関する統計を蓄積することは可能ですが(例えば、赤い車が止まり、背の高い男性が横断する。老婦人が止まり、大きな車が通り過ぎる)、ほとんどは最終的に役に立たないでしょう。最終的に、すべての車が道路のある地点で停止した後、すぐに歩行者が横断するなど、いくつかの繰り返し現れる統計パターンを発見することができます。もしタスクが単に歩行者がいつ歩き始めるかを予測することだけであれば、機械学習の文脈ではこの特定で十分ですが、状況に関する理解は必要ありません。実際、これは誤った結論につながることさえあります。車の停止が歩行者の動きを説明しているというものです。このような誤りは、因果モデルに訴えず、雨が濡れた草を説明しているのか、それとも濡れた草が雨を説明しているのかを区別できない機械学習アプリケーションでは一般的です(Pearl and Mackenzie, 2018)。

一方、正しい隠れた規則(例えば、信号機)を推論することは、状況の因果構造(例えば、信号機が車の停止と歩行者の横断を引き起こす)についてより深い理解をもたらします。隠れた規則は、より良い予測能力を提供するだけでなく、ほとんどの感覚的な詳細(例えば、車の色)を抽象化できるため、推論をより簡潔にします。これにより、他の交差点や都市など、感覚的な詳細が大きく異なる他の状況への汎化が可能になります。ただし、ローマのような都市の交差点に直面する場合、信号機を見るだけでは不十分な場合があることに注意が必要です。最後に、信号機の規則を理解することは、新しい状況でのより効果的な学習、または心理学でいう「学習セット」や機械学習でいう「学習能力」の発達も可能にします(Harlow, 1949)。信号機が消えている交差点に直面した場合、学習した規則は使用できませんが、同様の別の隠れた規則が作用していると期待するかもしれません。これは、交通警察官が何をしているかを理解するのに役立つでしょう。

この単純な例が示すように、環境の豊かな潜在的構造の生成モデルを学習する(別名、構造学習)ことは、複雑な形式の因果推論と汎化を提供することができます。これらの複雑な状況に対処するために生成モデルを拡張することは、計算モデリングと認知科学の継続的な目標です(Tenenbaum et al., 2006; Kemp and Tenenbaum, 2008)。興味深いことに、現在の機械学習のトレンド(「大きいほど良い」という一般的な考え方)と積極的推論の統計的アプローチとの間には緊張関係があり、モデルの正確性と複雑さのバランスを取る重要性が示唆されています。これはより単純なモデルを好みます。モデルの削減(および不必要なパラメータの剪定)は、リソースの無駄を避ける方法であるだけでなく、睡眠などのオフライン期間中に隠れた規則を学習する効果的な方法でもあり(Friston, Lin et al., 2017)、おそらく静止状態活動として現れることもあります(Pezzulo, Zorzi, and Corbetta, 2020)。

10.13 積極的推論とその他の領域:開かれた方向性

どこかで始まらなければならない、いつか始まらなければならない、

ここより良い場所があるだろうか?今より良い時があるだろうか?

—レイジ・アゲインスト・ザ・マシーン、「ゲリラ・レディオ」

本書では、生存と適応の生物学的問題を解決する積極的推論モデルに主に焦点を当ててきました。しかし、積極的推論は他の多くの領域に応用できます。最終節では、その2つの領域について簡単に議論します。それは、社会的および文化的ダイナミクス、および機械学習とロボット工学です。

前者に対処するには、複数の積極的推論エージェントが相互作用する方法と、その相互作用の新たな影響を考慮する必要があります。より複雑な問題に対処する、しかし理論の基本的な仮定と互換性のある方法で。どちらも興味深い未開拓の研究方向です。

10.13.1 社会的および文化的ダイナミクス

私たち(人間)の認知の興味深い側面の多くは、個人主義的な知覚、決定、行動よりも、社会や文化のダイナミクスに関連しています(Veissière et al., 2020)。定義上、社会力学には、複数の積極的推論生物が物理的な相互作用(例えば、チームスポーツのような共同行動)や、より抽象的な相互作用(例えば、選挙やソーシャルネットワーク)に参加することが必要です。同じ生物間の推論の単純なデモンストレーションは、単純な生命体の自己組織化が分散に抵抗する、形態形成プロセスに関与する可能性が身体形態を獲得し回復する、相互に調整された予測と話者の交替(Friston, 2013; Friston and Frith, 2015a; Friston, Levine et al., 2015)など、興味深い緊急現象を生み出しました。他のシミュレーションでは、生物がその認知を物理的な人工物に拡張し、その認知ニッチを形成できることが研究されました(Bruineberg et al., 2018)。

これらのシミュレーションは、私たちの社会的複雑性と文化的ダイナミズムのごく一部を捉えているにすぎませんが、積極的推論が個人科学から社会科学へと、そして認知がいかに私たちの頭脳を超えて拡張されるかを示しています(Nave et al., 2020)。

10.13.2 機械学習とロボット工学

本書で議論されている生成モデリングと変分推論の方法は、機械学習とロボット工学で広く応用されています。これらの分野では、焦点は通常、生成モデルをどのように学習するかであって、本書の焦点である積極的推論にそれらをどのように使用するかではありません。これは興味深いことです。なぜなら、機械学習方法は、生成モデルや本書で考慮されている問題の複雑さを拡大するのに役立つかもしれませんが、非常に異なる積極的推論のプロセス理論を必要とする可能性があることに注意が必要です

ここでは機械学習生成モデルに関する膨大な文献をすべてレビューすることは不可能ですが、最も一般的なモデルとその多くの派生モデルをいくつか簡単に紹介します。初期の2つのコネクショニスト生成モデルであるヘルムホルツマシンとボルツマンマシン(Ackley et al., 1985; Dayan et al., 1995)は、ニューラルネットワークの内部表現を教師なしで学習する方法の例を提供しました。ヘルムホルツマシンは、隠れ変数の分布を推論し、そこから仮想データをサンプリングするために、分離された認識ネットワークと生成ネットワークを使用するため、積極的推論の変分アプローチと特に関連しています。これらの方法の初期の実際的な成功は限られていました。しかしその後、複数の(制限付き)ボルツマンマシンを積み重ねる可能性が多層内部表現を学習することを可能にし、教師なし深層ニューラルネットワークの初期の成功の1つとなりました(Hinton, 2007)。

コネクショニスト生成モデルの最新の2つの例は、変分オートエンコーダ(VAE)(Kingma and Welling, 2014)と生成敵対的ネットワーク(GAN)(Goodfellow et al., 2014)であり、画像や動画の認識や生成など、機械学習アプリケーションで広く使用されています。VAEは、生成ネットワーク学習における変分法の優れた応用を具現化しています。それらの学習目標である証拠下限(ELBO)は、数学的に変分自由エネルギーと等価です。この目標は、データの正確な記述を学習することを可能にするだけでなく(つまり、精度を最大化する)、事前分布と大きく異ならない内部表現も促進します(つまり、複雑性を最小化する)。後者の目標は、いわゆる正則化器として機能し、汎化を助け、過学習を避けるのに役立ちます。

GANは異なるアプローチに従います。生成ネットワークと識別ネットワークという2つのネットワークを結合し、学習プロセス中に両者が絶えず競合します。識別ネットワークは、生成ネットワークによって生成されたサンプルデータが本物か仮想かを見分けることを学習します。生成ネットワークは、識別ネットワークを欺く(つまり、誤分類される)仮想データを生成しようとします。これら2つのネットワーク間の競合は、生成ネットワークに生成能力を向上させ、高忠実度の仮想データを生成することを強制します。この能力は、リアルな画像を生成するなど、広く使用されています。

上記の生成モデル(およびその他のモデル)は、制御タスクに使用できます。例えば、HaとEck(2017)は、(シーケンス・ツー・シーケンス)VAEを使用して鉛筆のストロークを予測することを学習しました。VAEの内部表現からサンプリングすることで、モデルは新しいストロークベースの描画を構築できます。ボルツマンマシンは多層内部表現を学習でき、教師なし深層ニューラルネットワークの初期の成功の1つでした(Hinton, 2007)。生成モデリング方法は、ロボットの運動制御にも使用されています。これらの方法の一部は、積極的推論(Pio-Lopez et al., 2016; Sankat et al., 2020; Siriya et al., 2021)または密接に関連するアイデアを、コネクショニストの文脈で(Ahmadi and Tani, 2019; Tani and White, 2020)使用しています。

この分野の主要な課題の一つは、ロボットの運動が高次元であり、(学習する)複雑な生成モデルを必要とすることです。積極的推論と関連する方法の興味深い側面は、最も重要な学習対象は、次のタイムステップでの動作と感覚(例えば、視覚と固有受容)フィードバックの間の順方向マッピングであるということです。この順方向マッピングは、自律的な探索、デモンストレーション、さらには人間との直接的な相互作用(例えば、教師(実験者)がロボットの手を軌道に沿って目標に導くことで、効果的な目標指向行動の獲得を構築する)(Yamashita and Tani, 2008)など、様々な方法で学習できます。生成モデルを様々な方法で学習できる可能性は、ロボットが最終的に達成できるスキルの範囲を劇的に広げます。ひいては、積極的推論を用いてより高度な(神経)ロボットを開発する可能性は、技術的にだけでなく、理論的にも重要です。実際、積極的推論のいくつかの重要な側面、例えば適応型エージェントと環境との相互作用、認知機能の統合、具現化の重要性などは、ロボットの設定で自然に解決されます。

10.14 まとめ

家は後ろに、世界は前に、

そして踏みしめるべき多くの道がある

影の中を夜の果てまで、

星々がすべて輝くまで。

—J. R. R. トールキン、「指輪物語」

私たちは本書の冒頭で、脳と行動を第一原理から理解することが可能かどうかという問いを投げかけました。そして、その挑戦に対する候補理論として積極的推論を紹介しました。私たちは読者の皆様に、当初の問いに対する答えがイエスであると確信していただければ幸いです。本章では、積極的推論が知覚行動に提供する統合的な視点と、この理論がなじみのある心理的構成要素(例えば、知覚、行動選択、感情)に与える影響を考察しました。これにより、本書全体で紹介された概念を再検討し、今後の研究に残された興味深い問題を再確認する機会が得られました。私たちは、本書が積極的推論の関連著作、一方では哲学(Hohwy, 2013; Clark, 2015)、他方では物理学(Friston, 2019a)への有用な補足となることを願っています。

私たちは今、旅の終わりにたどり着きました。私たちの目標は、これらの方法に興味を持つ人々、概念レベルであろうと形式レベルであろうと、紹介することでした。しかし、積極的推論は純粋に理論的に学習できるものではないことを強調する必要があります。この本を楽しんだ方には、実際にそれを追求することを検討することをお勧めします。理論神経生物学の重要な段階は、生成モデルを書き、シミュレートされた行動が不適切であることにフラストレーションを感じ、予期せぬ事態が発生したときに事前信念に反する行動から学ぶことです。計算レベルでこの実践を選択するかどうかにかかわらず、日常生活で積極的推論を行う際に反省していただければ幸いです。これは、周辺視野の特定のものに関する不確実性を解決するために目を強制することとして現れるかもしれません。それは、事前の(味覚の)好みを満たすためにお気に入りのレストランで食事をすることかもしれません。それは、シャワーが熱すぎる場合に熱さを減らして、温度があなたの世界のあるべきモデルに合致するようにすることかもしれません。最終的に、私たちはあなたが何らかの形で積極的推論を追求し続けると信じています

メインタグ:積極的推論

サブタグ:強化学習認知科学ベイズ脳制御理論


前の記事:今世紀最高のAIインタビューの一つ:AIの安全性、エージェント、OpenAIなど重要テーマ

次の記事:米国華人系女性科学者が画期的な脳卒中治療法を発明!血栓除去成功率90%、医療の常識を覆す可能性!

短いURLをシェア