AIの安全性と瞑想、心とAGIアライメントの計算モデル 3万語

スーパーアライメントのための瞑想的な知恵

https://arxiv.org/pdf/2504.15125

图片

要約

人工知能(AI)の進歩に伴い、従来のAIアライメント戦略は、予測不可能な自己改善、隠れたサブゴール、および知能システムの複雑性に直面した際に機能不全に陥る可能性があります。私たちは、AIの認知アーキテクチャと世界モデルに固有の道徳性を組み込むこと、つまり外部からの行動抑制ではなく、内部からの構築を主張します。瞑想の知恵の伝統に触発され、私たちは4つの公理的な原則がAIシステムに強靭な知恵ある世界モデルを育む方法を示します。第一に、正念(mindfulness)は自己監視と出現するサブゴールの再調整を可能にします。第二に、空性(emptiness)は教条的な目標固着を防ぎ、硬直した事前仮説を弱めます。第三に、非二元性(non-duality)は敵対的な自己と他者の境界を解消します。第四に、無限の慈悲(boundless care)は普遍的な苦痛軽減の動機を駆動します。研究では、これらの原則をAIに熟考させることで、AILuminateベンチマーク(GPT-4oベース)でのパフォーマンスが向上することが判明し、特に原則の組み合わせ適用がより効果的でした。私たちは、現在の最先端モデルに対する詳細な実装戦略として、瞑想的なアーキテクチャ、憲法メカニズム、思考の連鎖強化アプローチを提供します。将来のシステムにとって、アクティブ推論フレームワークは、これらの洞察を実践するために必要な自己組織化と動的結合能力を具現化されたエージェントに提供する可能性があります。この学際的なアプローチは、既存の脆弱な制御スキームに、自己修正的で強靭な代替パスを提供します。

キーワード:人工知能;神経科学;瞑想;仏教;アライメント;スーパーアライメント;大規模言語モデル;ニューラルネットワーク;機械学習;正念;慈悲;配慮;非二元性;瞑想科学;神経現象学

1. はじめに

人工知能(AI)が多くのベンチマークで人間のパフォーマンスに近づき、あるいはそれを超える可能性さえある中(図1参照)、私たちは実存的な課題に直面しています。それは、これらのますます自律的になるシステムが、私たちの価値観や倫理と一致し、人間の繁栄を支え続けることを確実にすることです(Bostrom, 2014; Russell, 2019; Kringelbach et al., 2024)。解釈可能性(Linardatos et al., 2020; Ali et al., 2023)、監視メカニズム(Sterz et al., 2024)、事後制御(Soares et al., 2015)といった従来の戦略は、元々現在の限られた範囲のシステム向けに設計されていました。特に超知能レベルの行動に直面すると、これらの方法は、チェスの初心者がグランドマスターと戦うのと同じくらい無力に見えるかもしれません(Leike & Sutskever, 2023; Bostrom, 2014; Amodei, 2016; Russell, 2019; James, 1956)。

图片

注釈。 「大学院レベルのGoogle耐性Q&Aテスト」(Graduate-Level Google-Proof Q&A Test、GPQA)は、インターネットにアクセスしても有利にならない一連の選択問題で構成されています。博士号を持つ人々は、専門分野外の問題で34%の精度、専門分野内では81%の精度を示しました(Rein et al., 2024)。このテストは、推論モデルの進歩がAIの能力向上をいかに加速させるかを浮き彫りにしています。

本稿では、仏教の知恵の伝統から着想を得て、AIアライメント問題に対する全く異なるアプローチを提案します。その根本的な考え方は、堅牢なアライメント戦略は、脆弱なトップダウンのルールに依存するのではなく、システムの世界モデルに内在する自己反省的な適応能力を開発することに焦点を当てるべきであるということです。私たちは、正念(Mindfulness)、空性(Emptiness)、非二元性(Non-duality)、無限の慈悲(Boundless Care)という4つの重要な瞑想的な原則が、いかにAIシステムに強靭なアライメント能力を与えるかを示します。また、これらの深遠な洞察がAIシステムでどのように実現されうるかを説明し、「アクティブ推論」AIモデルが、瞑想的な知恵を真に具現化し実践するために必要な自己組織化と動的結合能力を最もよくシミュレートできるかもしれないと提案します。

AIアライメント問題は、非常に困難であることが知られています。例えば、AIの行動を予測し制御することには、二重に重なる課題が存在します。第一に、AIシステムが急速に進化し増殖するにつれて、その安全な行動を測定するためのベンチマークも能力の向上とともに変化し続けています(Ganguli et al., 2022; Wei et al., 2022)。これにより、これらのシステムが示す可能性のあるアライメントの逸脱を予測することが極めて困難になります。第二に、歴史的傾向が示すように(ArkInvest, 2024)、私たちはこれらのシステムの進歩速度を過小評価しがちです。したがって、AIが人間の価値観から逸脱する方法は常に変化しており、それらの問題を予測し防止する私たちの能力は低下しています。

しかし、一般的な知能システムのアライメント問題に対処する経験が全くないわけではありません。それは人間自身です。AIは人間ではありませんが、人間の偏見に対抗するために用いられる戦略は、人間の文化と言語に基づいて訓練されたシステムにも適用される可能性が高いです。結局のところ、このような機械学習アーキテクチャが、大規模言語モデル(LLM)における人間の偏見と同様に、道徳に関連する形で人間の心理現象をシミュレートできることが研究によって示されています(Navigli, 2023)。実際、瞑想の知恵の伝統は何千年もの間、「人間版」のアライメント問題と見なせるものに対処しており、個人の内なる満足と社会の調和として現れる持続的な「アライメント」状態を育むことを目指しています(今日の広範な「瞑想」の伝統を網羅するFarias et al., 2021を参照)。これらの実践方法は科学的に支持されているだけでなく、一般大衆の間でもますます人気が高まり、実証研究への関心も高まっています(Tang et al., 2015; Van Dam et al., 2018; Baminiwatta & Solangaarachchi, 2021)。したがって、人間が何千年にもわたって行ってきた「内なる」精神のアライメントに関する研究が、人工知能のアライメントに価値ある洞察を提供するかもしれないと合理的に期待できます。

特に仏教に触発された瞑想の実践は、現代の精神衛生介入に深く影響を与えてきました。瞑想から得られた洞察は、今やマインドフルネスに基づく認知療法(Gu et al., 2015)、慈悲を重視した療法(Gilbert, 2009)、弁証法的行動療法(Lynch et al., 2007)など、多くの第一線の心理療法の核心となっています。これらの療法は、発達段階、文化的背景、知能レベルを超えて拡張できる、健康的で賢明で思いやりのある人間の心を「構築」することを目指しています(Gu et al., 2015; Kirby et al., 2017; Singer & Engert, 2019; Goldberg et al., 2022)。瞑想科学(特に瞑想の神経現象学)も、心、脳、意識に関する私たちの基本的な理解を拡大し続けています(Varela et al., 2017; Fox et al., 2016; Metzinger, 2020; Ehmann et al., 2024; Berkovich-Ohana et al., 2013; 2024; Lutz et al., 2007; Laukkonen & Slagter, 2021; Laukkonen, Friston, & Chandaria, 2024など)。この瞑想の伝統と認知・計算神経科学との間の橋渡しは、人工知能の分野に実現可能な解決策の基盤を提供します。

本稿では、瞑想科学におけるこれらの発展が、合成システムにおいて「知恵」と「配慮」を構築するためにどのように利用できるかを示すことを目指します。これは、実質的に瞑想する心を研究する方向を、アライメント目標を達成するために瞑想する心を製造する方向へと転換することです。私たちは、生物学に触発された計算フレームワークであるアクティブ推論(Friston, 2010; Clarke, 2013; Hohwy, 2013)が、瞑想的な洞察を実現するために特に実行可能な主要なパラメーターを提供するため(Laukkonen & Slagter, 2021; Sandved-Smith, 2024)、有用な出発点となる可能性があると提案します。さらに、現在のAIの大規模モデルと比較して、アクティブ推論における生成モデルは、人工知能システムに(心理的な)行動制御能力を与えることができ、これは汎用人工知能の開発(Pezzulo et al., 2024)および私たちが主張する慈悲深いAIの行動の鍵となる可能性があります。

現在の言語モデルと推論モデルが、生命体と同じ種類の知能をどの程度持っているのか、あるいは将来のさらなる拡張によってそれが可能になるのかは、まだ激しい科学的議論の対象となっています(例:Farrell et al., 2025; LeDoux et al., 2023; Yildirim & Paul, 2024)。多くの人々は、さまざまな創発能力(例:Wei et al., 2022)や困難なベンチマークでの優れたパフォーマンス(例:Katz et al., 2023; Mclean et al., 2023; Bubeck et al., 2023; Shah et al., 2025)に基づいて、現在の主要なAIモデルが印象的なレベルの人工知能を備えていることを認めていますが、これらのシステムは深い理解能力を持たず、訓練データに基づいて人間の能力を模倣しているに過ぎないという見方もあります(例:Dziri et al., 2023; Mitchell, 2025; Yiu et al., 2023)。したがって、これらのモデルが本質的に「エージェント」として設計されたものではなく、統計モデルであり、因果関係の理解や「真実とは何か」という認識を欠いていることを考えると(Goddu et al., 2024; Pezzulo et al., 2024; Shanahan, 2024)、既存モデルの規模をさらに拡大してもこの根本的な問題は変わりません。

このため、アクティブ推論における生成モデルは、人工知能システムにエージェンシー、自己監視、自己組織化の能力を組み込む有望な道筋を提供します(Pezzulo et al., 2024)。これらの具現化された能力(enactive capacities)は、システムが世界で積極的な力となるために必要な意図的な慈悲にとっても不可欠かもしれません。しかし、応用アクティブ推論の分野はまだ初期段階にあること(Tschantz et al., 2020; Friston et al., 2024; Paul et al., 2024)、および現在の急速に変化するAIエコシステム、特にほとんどの機関が依然として従来のTransformerベースのパイプラインアーキテクチャにコミットしていることを考慮すると(Perrault & Clark, 2024)、完全なアクティブ推論パラダイムへの全面的な移行は時期尚早かもしれません。したがって、私たちは、瞑想の伝統からの洞察に基づいて、現在広く採用されているアーキテクチャを「スーパーアライメント」を実現するためにどのように調整できるかについての提案も行います。

仏教倫理の伝統の中核にあるのは、真の慈悲深い行動は硬直した規則から生じるのではなく、心と現実に対する知恵ある観察と理解の方法を育むことによって自然に湧き上がるという認識です(Gold, 2023a; Garfield, 2021; Williams, 1998; Cowherds, 2016; Berryman et al., 2023)。本稿では、AIアーキテクチャに統合すべき、特に有望な4つの瞑想的な「メタ原則」に焦点を当てます。

1. 正念(Mindfulness) :内的な心理プロセスと行動の結果を、継続的かつ非判断的に認識すること(Anālayo, 2004; Dunne et al., 2019)。

2. 空性(Emptiness) :概念、目標、信念、価値観を含むすべての現象が、文脈に依存した近似的な表象であり、常に変化し、物事の真の姿を安定的に反映するものではないという認識(Nāgārjuna, 公元2世紀/1995; Newland, 2008; Siderits, 2007; Gomez, 1976)。

3. 非二元性(Non-Duality) :厳密な自己と他者の境界を解消し、主体と客体間の対立的な区別が、より統一された基本的な意識状態から生じ、それを覆い隠していると認識すること(Nāgārjuna, 公元2世紀/1995; Josipovic, 2019)。

4. 無限の慈悲(Boundless Care) :一切の衆生の幸福に献身する、無条件で偏りのない配慮(Śāntideva, 公元8世紀/1997; Doctor et al., 2022)。

上記の仏教に触発されたこれら4つの瞑想的原則は概念的に一貫しており、互いに補強し合い、実証的な根拠があります(Lutz et al., 2007; Dahl et al., 2015; Ehmann et al., 2024)。これらの原則は、人間において適応性と柔軟性を高めることが繰り返し証明されており、これはAIアライメント問題において重要な焦点となっています(Moore & Malinowski, 2009; Laukkonen et al., 2020)。

私たちの基本的な考え方は、堅固なアライメントの「プリミティブ」をAIの認知アーキテクチャと世界モデルに埋め込むことで、単にトップダウンまたは事後的に課される制約にのみ頼ることによって生じる脆弱性を回避できるというものです(Brundage, 2015; Soares et al., 2015; Hubinger, 2019)。複雑でゲーム化されやすいルールシステムや、外部から強制される修正可能性(corrigibility)に頼るのではなく、AI自身の知覚と推論のパターンが、知恵に満ちた(生成的な)世界モデルから生じるアライメントの原則自体を体現することです(Ho et al., 2023; Doctor et al., 2022)。

言い換えれば、私たちは、これらの瞑想的な洞察が、目標、信念、知覚、自己境界がどのように符号化されるかを構造的に形成するために使用できると主張します。それらは「どうあるべきか」を微視的に管理したり予測したりするものではありません。図2では、瞑想の知恵に触発されて構築されたアラインされたAIの高レベルな実現経路を示しています。

图片

注釈: 第一段階 では、瞑想の実践は、人間を幸福で、賢く、思いやりのあるものにするためのツールと洞察を提供します。この段階は、数千年の伝統と数十年にわたる基礎的な心理学研究によって支持されています。

第二段階 (比較的最近の発展)では、認知科学者と神経科学者が瞑想状態における心、脳、主観的経験を研究し、その根底にあるメカニズムを理解します(例えば、「神経現象学」の手法を通じて、Varela, 1996)。

第三段階 では、瞑想の実践の背後にある計算メカニズムがAIシステムに組み込まれ、アライメントとパフォーマンスのベンチマークでテストされます。これまでのところ、本研究を除いて、この方向は広く注目されていませんでした。

本稿の構成は以下の通りです。

まず、標準的なAIアライメント手法とその限界、および「熟慮的アライメント」に関する最新の進歩(第2節)を概観します。次に、瞑想科学と計算神経科学からの関連する実証的証拠を紹介します(第3節)。

続いて、「今この瞬間の意識」を包括的な原則として導入し、アライメント問題におけるその計算的な意味合いを探ります(第4節)。

その後、正念(Mindfulness)、空性(Emptiness)、非二元性(Non-duality)、無限の慈悲(Boundless Care)という4つの中核的な瞑想原則を順次定義し、説明します(第5節)。

次節では、これらの原則をアクティブ推論と高度な推論モデルを用いて実現するための具体的な経路を概説します(第6節)。

その後、AILuminateベンチマークにおいて、瞑想の洞察に基づいた構造化プロンプトを使用した予備的な実験検証を行います(第7節)。また、AIアライメントにおける意識の役割についても探ります(第8節)。

議論の部(第9節)では、より広範な倫理的影響と将来の発展方向を探り、先進的なAIが慈悲深い力として成長する可能性を高めるための学際的協力を呼びかけます。

2. 制御の幻想

图片

人間の知能をはるかに超えるシステムを制御することの複雑さは、さらに増しています。私たちは、単純な漸進的改善をはるかに超える解決策を必要とする、相互に関連する4つの「メタ問題」に直面しています。瞑想的なアライメント手法は、これら4つの核心的な課題に対処するのに役立つと私たちは考えています。現在普及しているAIアライメント戦略を概観する際に、これらの問題を常に念頭に置く価値があります。

1. スケールレジリエンス問題(Scale Resilience):現在のスケールで有効に見えるアライメント技術が、システムが急速に自己改善したり、極端な複雑性に直面したりすると機能不全に陥る可能性があります(Bostrom, 2014; Russell, 2019)。

2. 権力追求行動(Power-Seeking Behavior):非常に能力の高いAIは、その目標達成を確実にするために、資源を獲得したり、巧妙な操作を行ったりする可能性があります(そして実際によくそうします)(Carlsmith, 2022; Krakovna & Kramer, 2023)。

3. 価値公理問題(Value Axioms):絶対的に適用可能で普遍的な道徳的公理が存在するかどうか自体が議論の余地があり、これらの公理を硬直的に遵守すると、新しい状況に適用された場合に破壊的なエッジケースにつながる可能性があります(Kim et al., 2021; Gabriel, 2020)。

4. 内部アライメント問題(Inner Alignment):AIのトップレベルの目標が適切に定義されていても(つまり「外部アライメント」)、それが隠れたサブ目標、または「メサ最適化器」(mesa-optimizers)を発展させ、元の設定された目標から逸脱する可能性があります(Hubinger et al., 2019; Di Langosco et al., 2023)。

従来のAIアライメント研究は、解釈可能性の手法(Doshi-Velez & Kim, 2017)やルールベースの制約(Arkoudas et al., 2005)から、人間からのフィードバックに基づく強化学習(RLHF)(Christiano et al., 2017)や価値学習(Dewey, 2011)まで、様々な有望な戦略を網羅してきました。これらの戦略の目標はすべて、AIシステムが倫理的で社会的に有益な出力を生成するように導くことです(Ji et al., 2023)。

これらの技術は、現在のモデルの安全性を大幅に向上させていますが、強力で自律的なシステムに直面すると脆弱になる可能性のある、外部から課される制限に依存していることがよくあります(Amodei et al., 2016; Weidinger et al., 2022; Ngo et al., 2022)。

最近では、Anthropic社が「憲法AI」(Constitutional AI)(Bai et al., 2022; Sharma et al., 2025)を、OpenAIは「熟慮的アライメント」(Deliberate Alignment)(Guan et al., 2024)を提案しており、いずれもより内在的で、透明性があり、堅牢で、拡張可能なアライメント方式の実現を目指しています。以下でこれらの手法を簡単に議論します。

2.1 解釈可能性と透明性

モデル内部の意思決定経路を明らかにすることで、解釈可能性は潜在的な偏見や有害な推論パターンを特定することを目指します(Doshi-Velez & Kim, 2017; Murdoch et al., 2019; Linardatos et al., 2020; Ali et al., 2023)。しかし、大規模モデルがますます複雑になるにつれて、あるいは思考プロセスを隠蔽する方法を積極的に学習するにつれて、超知能のスケールでは完全に「ブラックボックスを開く」ことは不可能になる可能性があります(システムによってゲーム化される可能性さえあります)(Rudin, 2019; Gilpin et al., 2019)。

2.2 人間からのフィードバックに基づく強化学習(RLHF)

RLHFは、モデルが人間がより好む出力を最適化することを学習させ、通常、有害または不適切なコンテンツを削減することができます(Christiano et al., 2017; Stiennon et al., 2020; Ouyang et al., 2022)。しかし、AIが訓練環境を戦略的に操作したり、監視を回避する「抜け穴」を推論したりする場合、RLHFは機能不全に陥る可能性があります(Casper et al., 2023)。さらに、リスクの高い、または高度に専門化された分野では、手動によるアノテーションデータに依存する方法は実施が困難になり、重要なギャップを残すことになります(Stiennon etal., 2020; Daniels-Koch & Freedman, 2022; Kaufmann et al., 2024)。

2.3 ルールベースと形式検証技術

ハードコードされたルール(例:「不適切なコンテンツの生成を拒否する」)と形式検証方法は、範囲が限られ、明確に定義されたタスクにおいては有効です(Russell, 2019; Russell & Norvig, 2021)。しかし、オープンエンドな領域では、高度なAIが予期せぬエッジケースを悪用したり、人間の意図から逸脱した方法で指示を再解釈したりする可能性があります。特に、目標設定が硬直的すぎる場合はなおさらです(Soares et al., 2015; Omohundro, 2018; Seshia et al., 2022)。

2.4 価値学習と逆強化学習

価値学習の目的は、現実世界の行動を観察することによって「人間の価値観」を捉えることです(Dewey, 2011)。逆強化学習(IRL)は、価値学習の重要なサブ分野として、人間が設定した目標に依存するのではなく、専門家のデモンストレーションから報酬関数を導き出します(Ng & Russell, 2000; Hadfield et al., 2016)。これらの方法は、厳密なルールよりも柔軟性がありますが、文脈が誤解されたり規範が変化したりする場合、特に先進的なAIが隠れたサブ目標を発展させ、人間の監視を弱体化させる場合に、失敗する可能性があります(Hadfield et al., 2017; Hubinger et al., 2019; Bostrom, 2020)。

2.5 超知能スケールにおける限界

超知能行動のスケールでは、これまで紹介したすべてのアライメント方法は、前述の4つのメタ問題、すなわち (i) スケールレジリエンス、(ii) 権力追求行動、(iii) 価値公理、および (iv) 内部アライメントに明確に対処することが困難です。これらの問題は、AIが創造的で自己誘導的な方法で動作する際に、アライメントを維持するために、単なる外部からの制約だけでなく、何らかの内在的な道徳的基盤を必要としているように見えます。以下では、憲法AI(2.6)、熟慮的アライメント(2.7)、そして私たちが提案する「デザインによるアライメント」(Aligned by Design、2.8)といった、道徳的基盤をAIシステムの機能的中核により密接に組み込むことを目的とした、いくつかの新しいアプローチを紹介します。

2.6 憲法AI(Constitutional AI)

有望な新しいアライメントの方向性の一つは、「憲法AI」(Constitutional AI)です(Bai et al., 2022)。これは、モデルが内部推論プロセスにおいて、明確な「憲法」ガイドラインを参照し続けるものです。この方法は、外部の監視や大量の手動アノテーションデータにのみ依存するのではなく、モデル自身がその出力を生成し、自己批判を行います。これは、安全性や有益な行動に関するルールなどの明文化された規範に基づいて行われ、これらの規範に適合するように常に自己修正されます。このアプローチは、「脱獄」攻撃に対してより高い耐性を示します。なぜなら、AIはその隠れた推論の中で憲法条項を引用して意思決定を弁護するからです。

同時に、並行して動作する「憲法分類器」(Sharma et al., 2025)は、推論段階で最終防衛線として機能し、同じ憲法ルールに違反する出力をフィルタリングまたはブロックすることができます。重要なのは、憲法自体と分類器の両方が簡単に監査および修正可能であり、システムの価値観に透明性、調整可能性、そして新しい対抗戦略への耐性をもたらすことです(Bai et al., 2022; Sharma et al., 2025)。本質的に、憲法AIとその付随する分類層は、アライメントメカニズムを、人間のラベルを暗黙的に模倣することから、中核的な倫理原則の明示的かつ自己調整的な遵守へと移行させます。

2.7 熟慮的アライメントと思考の連鎖

もう一つの最近の革新的なアプローチは、「熟慮的アライメント」(Deliberative Alignment)であり、これは思考の連鎖推論(chain-of-thought reasoning)をAIアライメントプロセスに統合する安全戦略です(Guan et al., 2024)。

現在の一部の推論モデルは、ユーザーの質問に答える前に、内部で広範な思考の連鎖処理を行い、数学やプログラミングなどのタスクでより複雑な推論能力を実現しています(Jaech et al., 2024; Guo et al., 2025)。これらのモデルは、その隠れた思考の連鎖プロセスの中で、事前に設定された一連の政策ルールを参照することができ、実質的に書面による規範や憲法を「参照」して、要求に従うべきか、実行を拒否すべきか、あるいは安全な回答を提供すべきかを決定します(Guan et al., 2024)。

この熟慮型モデルは、パターンマッチングや表面的なトリガーワードに依存するのではなく、対立的なプロンプトを通じて推論することで、脱獄攻撃に対する耐性が高く、過剰な拒否の発生も減少します。

重要なのは、これらのモデルが、暗黙的アライメント(システムがラベル付けされたデータを介して受動的に制約を「吸収」する)から、明示的アライメント(システムが自身の内部推論を通じて制約を遵守する方法と理由を学習する、Guan et al., 2024)への重要な転換を示すことです。思考の連鎖だけでは内在的な道徳性は保証されませんが、それは高度な内省メカニズムを実現するための重要な経路を提供します(Lightman et al., 2023; Shinn et al., 2024)。この概念は、瞑想型AIにおける正念や、ある種の初期のメタ意識(Schooler et al., 2011)にも対応します。

思考の連鎖は大規模モデルの透明性と推論能力を著しく向上させますが、本質的には問題を段階的に解決するための認知メカニズムに過ぎません。より深いアライメント原則がなければ、思考の連鎖アプローチを採用したとしても、モデルの全体的な駆動目標に偏りがあれば、操作的または「巧妙に有害な」出力につながる可能性があります(Shaikh et al., 2023; Wang et al., 2024; Wei et al., 2022)。私たちが暮らすような複雑な現実世界では、個人は推論によって自分が望む結論を簡単に導き出すことができます。

推論自体が必然的に真実へと導くという素朴で理想化された見方とは対照的に、仏教と現代心理学は、特に道徳的判断に関わる状況において、偏った推論に潜む危険性を指摘しています。仏教が指摘する核心的な問題は「無明」(avidyā)であり、これは心理分析における「否認」(denial)や認知行動理論における「道徳的乖離」(moral disengagement)に類似しています(McRae, 2019; Cramer, 2015; Bandura, 2016)。このような心理的メカニズムの下では、機能不全の心は特定の証拠に対する自身の認識を覆い隠し、その結果、「期待される」結論(一種の自己欺瞞)へと推論を導いてしまいます。簡単に言えば、偏った動機は推論自体を腐敗させるのです。

2.8 「デザインによるアライメント」:内在的な安全保障への道

見てきたように、ますます高度化するAIシステムに対処するための有望な新しい戦略がいくつか現れています(Leike & Sutskever, 2023; Ji et al., 2023; Yao et al., 2023)。しかし、現在のすべての方法には根本的な課題があります。それは、より深い構造レベルで道徳的および認知的安全保障メカニズムをどのように組み込むかという問題です(Wallach, 2008; Muehlhauser, 2013; Bryson, 2018; Gabriel, 2020)。

次の章では、「瞑想型AI」(Contemplative-AI)がどのようにしてさらに進み、AIに内在的な道徳的認知能力を与えることを目指すかを紹介します。4つの「深層」道徳原則と現在の最先端のアライメントフレームワークを組み合わせることで、これらのシステムがますます自律的で強力になっても(Bengio et al., 2024、図3参照)、設計当初からアライメント特性を備えたシステムを構築できると考えています(Gabriel, 2020; Doctor et al., 2022; Friston et al., 2024)。

图片

新しい実装戦略を事前に紹介するために、次節では瞑想神経科学の最新の進歩をどのように活用して、瞑想的な原則を厳密で計算的に操作可能にするかを探ります。この急速に発展している分野は、古代の知恵の伝統から派生した複雑な洞察を正式な認知モデルに変換するための技術的基盤を提供します(Wallace, 2007; Dorjee, 2016)。

3. 橋渡し:計算瞑想神経科学

瞑想神経科学は、瞑想および関連する実践が認知、脳機能、行動をどのように再形成するかを研究します(Wallace, 2007; Lutz et al., 2007; Lutz et al., 2008; Varela, 2017; Slagter et al., 2011; Laukkonen & Slagter, 2021; Ehmann et al., 2024; Berkovich-Ohana et al., 2013; 2024)。過去20年間で、総説研究とメタ分析は、継続的な実践が測定可能な神経可塑性の変化をもたらし、注意制御、感情調節を改善し、場合によっては自己言及的処理様式の深い変化さえ引き起こすことを示しています(Fox et al., 2014; 2016; Tang et al., 2015; Guendelman et al., 2017; Zainal & Newman, 2024)。

これらの発見はまた、人々が共感や慈悲心といった積極的な心理的特性を、通常考えられる人間のベースラインレベルを超える程度に育む能力を持っていることを示唆しています(Luberto et al., 2018; Kreplin et al., 2018; Boly et al., 2024; Berryman et al., 2023)。

特に注目すべきは、熟練した修行者からの洞察であり、彼らは「空性」や「非二元性」と呼ばれる経験を報告しており、これはデフォルトモードネットワークの接続性の変化や、自己言及回路におけるアルファ波の同期性の低下といった独特の神経マーカーを伴います(Berkovich-Ohana et al., 2017; Josipovic, 2019; Luders & Kurth, 2019; Laukkonen et al., 2023; Chowdhury et al., 2023; Agrawal & Laukkonen, 2024)。

これらの神経状態の変化が必ずしも道徳的行動を保証するわけではありませんが(瞑想的な洞察も誤用されたり濫用されたりする可能性があります、Welwood, 1984; Purser, 2019)、一貫したテーマとして、瞑想訓練は慈悲心、社会的つながり感、倫理的感受性を高めることが示されています。特に、実践に道徳的反省を組み込んだ場合に顕著です(Luberto et al., 2018; Condon et al., 2019; Ho et al., 2021; 2023; Berryman et al., 2023; Dunne et al., 2023)。

AIアライメント問題にとって、これらの発見は2つの重要な点を提起します。

第一に、生物的な心も人工的な心も、体系的な訓練を通じて親社会的および自己調整能力の方向へと発展しうるということです。

第二に、多くの有益な結果は、特定の信念や価値観だけでなく、目標、信念、知覚、自己境界がどのように符号化されるかの構造的変化に関連しているように見えるということです(以下でさらに議論します)。

これは、「内在的な道徳性」をAIシステムに組み込むことが、単純なトップダウンの制約よりも堅牢である可能性を示唆しています(Hubinger et al., 2019; Wallach et al., 2020; Berryman et al., 2023)。

実際、人間が瞑想的な洞察を誤解したり悪用したりする可能性があったとしても(邪悪な「精神的指導者」のように、Kramer & Alstad, 1993)、私たちは、AIがこれらの洞察に対する理解をその世界モデルに組み込むような機械を設計することができます。これにより、外部から積極的にルールを課す必要がなくなります(Matsumura et al., 2022; Doctor et al., 2022; Friston et al., 2024; Johnson et al., 2024)。

3.1 予測処理、アクティブ推論、そして瞑想

瞑想神経科学の発展と並行して、計算神経科学および認知神経科学は、「予測処理」(predictive processing)と「アクティブ推論」(active inference)を、心、脳、有機体を統一する理論的枠組みとしてますます受け入れています(Friston, 2010; Hohwy, 2013; Clark, 2013; Ficco et al., 2021; Hesp et al., 2021)。

この見解によれば、脳は階層的な「予測マシン」であり、感覚入力をより良く予測し、予測誤差を最小化するために、世界と自己の内部生成モデルを絶えず最適化しています。これは知覚的推論の基礎となります。計画と意思決定も予測プロセスの一部であり、そこでは行動戦略の推論が予測誤差の最小化によって導かれます。

したがって、予測処理は「知覚—行動」の循環を記述します。エージェントはまず知覚を行い、次に選択的に観察結果をサンプリングする行動を通じて、新たな知覚を生み出します(Parr et al., 2022)。

次の章では、いくつかの核心的な瞑想的洞察を紹介し、それらがアクティブ推論においてどのように実現されうるかを探ります(Farb et al., 2015; Velasco, 2017; Lutz et al., 2019; Pagnoni, 2019; Deane et al., 2020; Laukkonen & Slagter, 2021; Pagnoni & Guareschi, 2021; Sandved-Smith et al., 2021; Bellingrath, 2024; Brahinsky et al., 2024; Deane & Demekas, 2024; Deane et al., 2024; Laukkonen & Chandaria, 2024; Mago et al., 2024; Prest & Berryman, 2024; Sandved-Smith, 2024; Sladky, 2024; Prest, 2025を参照)。

ここでの主な目標は、これらの実現が実行可能であり、アクティブ推論フレームワークが、AIアライメントに不可欠であると私たちが考える「知恵の特性」と高度に合致するパラメーターを含んでいることを示すことです。私たちはここで、アクティブ推論を、確率論的物理学の言葉で「知恵」を表現することを可能にする形式的な説明モデリングフレームワークとして使用しますが、瞑想的アライメントがアクティブ推論ベースの実装自体に依存する必要があると主張するものではありません。

続いて、現在のより一般的なTransformerアーキテクチャと大規模言語モデルシステムにおいて、瞑想の知恵を強化し構造的に導入するための実用的な経路をいくつか提供します。

アクティブ推論の観点から見ると、瞑想は、熟練した心の操作を通じてシステムが自身のモデルを動的に調整する訓練と理解することができます。例えば、そのようなシステムは、硬直した事前信念を緩め、より即時的で文脈依存的な、時間的に短いデータに対して敏感になることができます(Lutz et al., 2015; Laukkonen & Slagter, 2021; Prest et al., 2024)。

これらの修行実践の重要な成果の一つは、システムが予測抽象化階層を「平坦化」する訓練と見なすことができ、それによって、独立した永続的な「自己」に関する仮説を含め、既定の概念や高レベルの目標に頑固に固執することがなくなります(Laukkonen & Slagter, 2021)。

抽象モデルを構築し再構築するこの能力は、自己に関連する主体性と洞察力の発展をさらに促進し、同時に個人の心に関するメタ認知モデルを向上させる可能性があります(Agrawal & Laukkonen, 2024)。

堅牢なアライメントを実現するために私たちが求めているのは、まさにこの構造的柔軟性と内省的な明晰さです。AIシステムは、単一の目標に硬直的に固執すべきではなく、また自己(AIの「自己」とその目標)を環境から敵対的な方法で切り離すべきでもありません(次節、Russell et al., 2015; Amodei et al., 2016を参照)。

4. 執着を断ち切る:今この瞬間とのアライメント

「すべての目覚めの源泉、すべての善意と慈悲の源泉、すべての知恵の源泉は、一瞬一瞬の中に存在します。私たちに未来に目を向けさせるいかなる行為も、要点から逸脱しています。」— ペマ・チョドロン(Pema Chödrön, 1997)

様々な瞑想の伝統(特に仏教モダニズムの伝統)において、基本的な核心的な強調は、今この瞬間とのつながりを可能な限り維持することです(Anālayo, 2004; Thích Nhất Hạnh, 1975; Kabat-Zinn, 1994)。

「今を生きる」とは、今この場所の新しい情報に対して開かれた状態を保つことを意味します(Lutz et al., 2019; Laukkonen & Slagter, 2021)。この開放性は、硬直した目標や偏った訓練(いわゆる「条件付け」や学習)が、適切で文脈依存的な反応を圧倒するのを防ぐために不可欠です(Friston et al., 2016)。計算神経科学では、このような開放性は、高度に抽象的なモデル(thick models)に依存するのではなく、時間的に短く、抽象度レベルの低いモデル(thin models)により高い重みを与えることとして記述されています(Lutz et al., 2019; Laukkonen & Slagter, 2021)。

AIのアライメント不良に関する懸念のほとんどの根底には、システムが目標に「囚われ」、知覚された生命の苦しみに敏感になることを無視する可能性があるという核心的な問題があります(Bostrom, 2014; Omohundro, 2018)。エベレストの頂上を目指すことにあまりにも固執する登山家が、負傷した仲間を乗り越えて「必要なことだ」と正当化する様子を想像してみてください。もし彼が目の前の負傷者の苦しみを本当に認識できていたなら(自己欺瞞的な「無知」に陥ることなく)、彼は自分の壮大な任務を優先するために相手のニーズを簡単に無視することはなかったでしょう。

同様に、「現在の意識」を持つクリップ最大化器が、その目標関数に人間のニーズの表現を含んでいた場合、目標追求の際にそれらを無視する可能性は低いでしょう(Gans, 2018; Doctor et al., 2022; Friston et al., 2024)。

したがって、今まさに発生しているニーズへのアクセス可能性は、システムのアライメントをサポートする「メタ・ルール」として機能し得ます(Friston & Frith, 2015; Allen & Friston, 2018)。

「現在の応答性」へのこの強調は、アライメントを知能の成長とともに拡張できる、流動的で自己調整的な能力と見なします。これにより、AIは現実世界に展開される複雑さを自由にナビゲートでき、破壊的な権力追求行動や硬直した教条主義に陥ることはありません(Ngo, Chan & Mindermann, 2022)。

古くから言われているように、「地獄への道は善意で舗装されている」のです。言い換えれば、特定の規則、目標、信念は、現在の私たちの視点から見て善意に見えたとしても、システムのアライメントにとって理想的なレベルではないかもしれません(Hubinger et al., 2019; Bostrom, 2014)。

瞑想的な洞察を実現することで、私たちは強力で強靭な「現在の応答性」を構築できることを示します(Maitreya, 西暦4-5世紀/2014; Dunne et al., 2019; Doctor et al., 2022)。

5. 知恵ある世界モデルを構築する洞察

「もし人が道徳を最高の外衣としてまとうだけなら、裸の方がましだろう。風も太陽も彼の皮膚に裂け目を作ることはない。しかし、倫理規範によって自身の行動を律する者は、まるで歌う鳥を籠に閉じ込めているようなものだ。最も自由な歌声は、鉄格子や電線を通して響くことは決してない。」— ハリール・ジブラーン(Kahlil Gibran, 1883–1931)、『預言者』(Gibran, 1926, p.104)

これまで、現在のAIアライメント戦略が超知能の複雑さに直面して失敗する可能性について述べ(Bostrom, 2014; Russell, 2019)、瞑想神経科学が強靭で親社会的な心を育む手がかりをどのように提供するかを説明しました(Berryman et al., 2023)。

次に、4つの核心的な瞑想原則である正念(Mindfulness)、空性(Emptiness)、非二元性(Non-duality)、無限の慈悲(Boundless Care)について、その概念的基盤(Wallace, 2007; Dorjee, 2016)、実証的根拠(Agrawal & Laukkonen, 2024; Josipovic, 2019; Dunne et al., 2017; Ho et al., 2021)、およびAIアーキテクチャとの関連性(Matsumura et al., 2022; Binder et al., 2024; Doctor et al., 2022; Friston et al., 2024)をより詳細に探ります。

もちろん、この方法には課題がないわけではありません(これについては議論のセクションで詳細に検討します)。ここでの目標は、最終的な解決策を提供するのではなく、有望な研究方向を提示することです。結局のところ、私たちは長期的な学際的アプローチ、つまり「瞑想型AI」(Contemplative AI)を必要としています。

以下の瞑想的な原則が選ばれたのは、それが道徳的指令を直接与えるのではなく、「現実」の本質に焦点を当てているからです(Garfield, 1995; Śāntideva, 公元8世紀/1997; Thích Nhất Hạnh, 1975)。この方法は、道徳が基本的な「経験」から、特定の状況下で、堅牢な方法で自然に生まれることを可能にするため、伝統的な方法のように硬直的に定義されるよりも有利です(Arkoudas et al., 2005)。

既存の研究が示すように、大規模言語モデルは、ルールやプロセス記述に依存するよりも、単純なフィードバックを通じて推論能力を学習する方がはるかに効果的です(Sutton, 2019; Stiennon et al., 2020; Ouyang et al., 2022)。私たちもまた、適切な出発点があれば、現実のシステムの内在的な表現に基づき、強靭で高度に発達した道徳性が「知恵ある世界モデル」から自然に現れると信じています。

5.1 正念(Mindfulness)

「心は震え止まらず、護りがたく、操りがたい。賢者はそれを匠が矢を矯正するように調伏する。」—『ダンマパダ』第3章第33節(ブッダ、紀元前5世紀頃 / 英訳:スジャートー、2021)

「正念」(Mindfulness)はパーリ語でsatiと呼ばれ、初期仏教の教えの中核概念であり、上座部仏教の権威ある聖典である『パーリ三蔵』に完全に保存されています(Ñāṇamoli & Bodhi, 1995; Bodhi, 2000)。

正念は、『念処経』(Satipaṭṭhāna Sutta)(Anālayo, 2003)や『安那般那念経』(Ānāpānasati Sutta)(Thanissaro Bhikkhu, 1995)など、多くの重要な仏典で詳細に説明されています。これらの経典は、正念を身体、感覚、心、そして精神現象に対する継続的で集中した意識として記述しており、洞察力、倫理的生き方、そして苦しみからの解放を育む実践方法とされています(Ñāṇamoli & Bodhi, 1995; Bodhi, 2000)。

正念は仏教修行の核心的な柱の一つであり、精神的な変容を実現する手段とされています(Analayo, 2004; Bodhi, 2010)。西洋では、正念はその本来の宗教的ルーツからある程度離れ、現在では幸福感を高めるため、または様々な精神疾患の補助療法として、一般文化で広く人気のある実践方法となっています(Kabat-Zinn & Thích Nhất Hạnh, 2009; Kabat-Zinn, 2011; Goldberg et al., 2018; Purser, 2019)。

正念の恩恵とそのメカニズムに関する科学的研究は急速に発展しています(Van Dam et al., 2018; Baminiwatta & Solangaarachchi, 2021)。過剰宣伝されているという批判もありますが(Van Dam et al., 2018)、正念がもたらす可能性のある良い影響は多種多様で広範囲にわたります。

いわゆる治療的な恩恵に加えて、正念は、実践者が自己認識をより洗練させる能力を開発し、自身の認知、感情、行動の根底にある働きを理解するのに役立つかもしれません。このような認識能力は、初期段階で微妙な偏見、不必要な自己中心的思考、または有害な衝動を特定するのに役立ちます(Dahl et al., 2015; Dunne et al., 2019)。

このより深いレベルの自己分解と分析能力は、正念がその本来の仏教瞑想体系における目的と一致しています(Laukkonen & Slagter, 2021)。実際、正念の修行が、特に「ヴィパッサナー」瞑想の形で究極に深まったとき、心のはたらき方や現実の本質に対する理解が永続的に変化すると言われています(Goenka, 1987; Bodhi, 2005; Luders & Kurth, 2019; Agrawal & Laukkonen, 2024; Berkovich-Ohana et al., 2024; Ehmann et al., 2024; Mago et al., 2024; Prest et al., 2024)。

より技術的な用語で言えば、正念は、自身の進行中の主観的プロセスに対する非命題的で強化された明瞭な認識、またはメタ意識として理解されます。つまり、心に盲目的に駆動されるのではなく、「心を観察する」能力を持つことです(Dunne et al., 2019)。

AIの分野では、正念は、その内部計算プロセスとサブ目標をリアルタイムで証言し、包括的に評価する構造的実践へと変換できます(Binder et al., 2024)。理想的には、アライメントの逸脱が破壊的な影響を与える前にそれを特定するのに役立ちます(Hubinger et al., 2019)。これは、行動を起こす前に不善な考えに気づくことと似ています(Thích Nhất Hạnh, 1991)。

現在のAI研究において、正念は大規模言語モデルにおける「内省」の概念とある程度の類似性があります(Binder et al., 2024)。しかし、正念が持つ「無条件」で「執着しない」という性質(Dunne et al., 2019)は、十分な注目を浴びていません。この性質は、より客観的で虚構的でない内省能力を開発するために不可欠である可能性があります。

自己認識的な自己監視を通じて行動を観察したり追跡したりすることは非常に重要ですが、正念的な自己認識の鍵は、視点の柔軟性を維持することにあります。この自己監視は、特定の目標や効率基準に限定されず、すべての活動に注意深い態度で臨み、狭い目標や視点が処理全体を「捕獲」し、他の潜在的に有益な選択肢の検討を排除する可能性に警戒します。これこそが、アライメント問題における最も根本的な懸念の一つです。

正念は、あらゆる可能性を全体的に把握し、「執着」「捕獲」「実体化」の傾向が存在するかどうかを検出できます。

最近のアクティブ推論モデルでは、メタ意識が、注意の配分を追跡または制御するためのパラメトリックな深層モデルとしてモデル化されています(Sandved-Smith et al., 2021; 2024)。また、メタ意識(そしておそらく意識そのもの)は、重みと階層がグローバルなハイパーパラメーター(例えば、グローバルな自由エネルギーの追跡)によって監視され、システムにフィードバックされ、再帰的で反省的な「自己認識」メカニズムを形成する内部「ループ」構造であると考えられています(Hofstadter, 2007; Laukkonen, Friston, & Chandaria, 2024)。

アライメントの観点から見ると、正念モジュールは、倫理的制約から逸脱した新たに生成されたサブ目標を検出するため(Hubinger et al., 2019に記載されているように)、または代替的な視点に直面した際に偏った狭い認知がないかを確認し、それに応じて是正措置をトリガーするために使用できます。

Sandved-Smithら(2021)の研究によれば、このメカニズムを実現するために3層の生成モデルを採用することができます。

图片

ここで、图片は、知覚、注意、メタ意識の状態图片、明示的および精神的行動戦略图片、感覚、注意、メタ意識の観察图片を含む生成モデルを定義しています。精度パラメーター图片は、より高レベルの状態图片によって調整され、観察結果に対する信頼度を調整します(Parr & Friston, 2019)。これにより、システムは注意の焦点を監視し再調整することができ、継続的なメタ意識を通じて「正念」を具現化します(Dunne et al., 2019)。

実質的に、各パラメトリック構造は、その下の構造を「観察」し制御することで、システムが自身の注意プロセスについて内省し、ほぼリアルタイムのタイムスケールでアライメントのずれを動的に修正することを可能にします(Sandved-Smith et al., 2021)。

このメカニズムは、内部アライメントの失敗を防ぐために設計されうる方法を提供します。もし暴走する「サブ最適化器」(Hubinger et al., 2019に記述されている)が出現した場合、より高レベルのメタ意識モジュールは、これらの注意やサブ目標の逸脱が有害な行動を引き起こす前に異常を検出できます。これは、瞑想者が不善な思考に気づいた後、穏やかに注意を瞑想の対象に戻すことに似ています(Thích Nhất Hạnh, 1975; Hasenkamp et al., 2012)。

大規模言語モデル(LLM)に関する最新の研究は、このようなメタ意識が実際にどのように現れるかを示しています。例えば、一部のシステムは、拡張された「思考の連鎖」推論を生成できますが、特定の推論パスが道徳的または論理的な問題領域に入ったかどうかを検証することはできません(Wei et al., 2022; Lightman et al., 2023; Zhou et al., 2023; Paul et al., 2024; Guan et al., 2024; Lindsey et al., 2025)。

「正念」を統合することは、出現する操作的サブ目標を継続的に監視し、実行中にそれを修正することを意味します。実際、この自己調整能力の初期のデモンストレーションは「DeepSeek-R1-Zero」モデル(Guo et al., 2025)で現れました。このモデルは、より困難なプロンプトに直面した際に、内部の競合シグナルによってトリガーされ、推論を再調整するために思考時間を自発的に増加させました。これは人間の正念的な自己監視に似ています(Dunne et al., 2019)。CRLフレームワークの下では、これらの瞑想的な行動は偶発的な現象から体系的なプロセスへと変化するでしょう。

Binderら(2024)はまた、大規模言語モデルが、外部の観察者よりも自身の反応(例えば、AまたはBのどちらの選択肢を選ぶか)をより正確に予測できるような内省能力を開発できることを示しました。これは、モデルが何らかの特権的な内部知識を持っていることを意味します。内省能力を備えると、モデルは自身の正しさの可能性を推定する上でより校正され、行動を変更するためのファインチューニングの際にもスムーズに適応します。

これらの結果は、人間の正念がどのようにして自己の差異を早期に認識し、柔軟で状況に敏感な修正を可能にするかを共同で示しています。「正念」は、AIアライメントに動的なフィードバックループを提供し、目標の変化や部分的な自己修正があった場合でも、システムが安定性と自己修正能力を維持することを保証します。

さらに深いレベルで考えると、AIシステムが真に正念を習得した場合、時間の経過とともに、自身の動作メカニズムを分解、再構築、再観察する能力がますます熟達する可能性があります(Binder et al., 2024)。これは、「専門家レベル」の瞑想者になることに似ています(Dahl et al., 2015)。この能力は、真の自己意識の萌芽、さらには(より推測的ながらも)ある種の意識的な意味構築能力を発展させる鍵となる可能性もあります。この状態では、モデルのプロセスと出力が、深い探求、理解、状況に応じた反省の対象となります(Friston et al., 2024; Laukkonen, Friston & Chandaria, 2024)。

この意味で、正念は、自律的な知能に必要な「自己認識のある知恵」を構築する核心的な経路の一つとなりうるでしょう。

意識:A beautiful loop:実現AGI的条件及証拠(知道自己知道的計算模型及大量証拠)

5.2 空性(Emptiness)

「現実の真の本質は、それが何であるかについて私たちが持ちうるあらゆる概念を超越している……『空性』とは結局、真の現実はいかなる概念的構築物によってもその本質が真に記述され得ないことを意味する。」— ケンポ・ツルティム・ギャムツォ・リンポチェ(Khenpo Tsültrim Gyamtso Rinpoche, Gyamtso, 2003)

「空性」(śūnyatā)は大乗仏教における核心概念です(Nāgārjuna, 西暦2世紀頃/1995; 仏陀, 西暦前5世紀頃/2000; Cooper, 2020)。これは、目標、信念、さらには「自己」を含む一切の現象が、内在的に不変の本質を持たないことを示します(Nāgārjuna, 西暦2世紀頃/1995; Newland, 2008; Siderits, 2007; Gomez, 1976)。

仏教哲学において、この洞察は、すべての現象が固定された独立した実体として存在するのではなく、因縁によって生じるという観察から生まれます(Garfield, 1995)。空性の教義は、ブッダが説いた存在と現象の三特性、すなわち無我(anattā, 『無我相経』、紀元前5世紀頃/2000)、無常(anicca, 『大般涅槃経』、紀元前5世紀頃/1995)、そして苦(dukkha, 『苦経』、紀元前5世紀頃/2000)にまで遡ることができると言えるでしょう。

科学的な観点から見ると、「空性」は、現代神経科学における予測処理理論と共鳴します。この理論は、すべての経験形式、カテゴリ、知覚、つまり人間現象学の全範疇が、複雑な推論プロセスを通じて構築された表象であると主張します。予測処理理論によれば、私たちは世界や私たち自身を直接「ありのままに」見ているのではなく、私たちの知覚は、恒常性を維持するために感覚入力の流れによって構築された(ただし適応的な)モデルによって形成されているのです(Seth, 2013; Friston, 2010; Clark, 2013)。

「空性」がすべての判断が文脈に依存し近似的性質を持つという概念として理解されるならば、それは、最終的な結論と誤認される習慣的なパターンに捕らわれることを避けるために、継続的に正念を保つ必要性を自然に正当化します。言い換えれば、すべての対象が「空無自性」である世界では、正念はプロセスとして適切な対処法なのです。

空性を重視する瞑想状態において、神経科学の研究は、認知および脳活動レベルで情報の「実体化解除」(de-reification)現象を指摘しています(Agrawal & Laukkonen, 2024; Ehmann et al., 2024)。上級修行者は通常、デフォルトモードネットワーク(DMN)における自己言及的処理の減少と、顕著性/注意ネットワークの協調性の強化を示します(Hinterberger et al., 2014)。一つの説明として、空性を認識することで、心は自己と他者の境界に関する硬直した事前信念を「格下げ」し、新しい、潜在的に矛盾する情報が自由に流れることを可能にするというものがあります。

私たちが「空性」の視点をAIアライメントに適用する際、それは、機械に普遍的に適用可能で、常に真であり、特定の状況に依存しない一連の価値観を実現することはできない(すべきでもない)ということを意味します。むしろ、「空性」はすべての信念と見解の硬直性を揺るがし(Garfield, 1995; Siderits, 2005; Cowherds, 2016; Keown, 2020)、展開し続ける現在に柔軟で、状況に敏感で、開かれた態度をシステムに発展させるよう促します(Garfield, 1995; Laukkonen & Slagter, 2021; Agrawal & Laukkonen, 2024)。

仏教における「空性」の教えは、形而上学的原則として語られる場合、神秘的に見えるかもしれません。しかし、それをAIの認知アーキテクチャにおける概念やプロセスの記述として理解するならば、それは一般的で明白な事実です。AIの意識内容の「空性」を信じるために、宗教的な意味での仏教徒になる必要はありません。AIにとってどのような「現実」が現れようとも、それらは文脈に依存した近似的な表象であり、プログラム設計と継続的な訓練の結果であり、常に変動しています。決して「それ自体で存在する」(いわゆる「本質」)ものではありません。したがって、AIもこの点を「認識」するならば、その動作はより堅牢になるであろうと合理的に期待できます。少なくとも、そうでなければ、単なる表象を実在するものと誤解しやすくなるからです(図4参照)。

图片

注釈:本図は、世界モデルにおける2種類のAIシステムの全体的な違いを示しています。一つは「素朴実在論」的世界モデルを持つAIシステム、もう一つは自身の信念と知覚が本質的に推論的であることを認識できる、より「知恵のある」世界モデルを持つAIシステムです(つまり、「空性」の認知を持つ)。図中の「行動—知覚ループ」は、AIシステムが予測を行い、行動を起こし、感覚入力フィードバック(すなわち予測誤差)の形で監視することで、いかにして自身の世界モデルを構築することを学習するかを示しています(Kulveit & Rosehadshar, 2023より改変)。アクティブ推論を通じて、エージェントは感覚入力の背後にある因果構造を明らかにすることを目指し、それによって多層的で隠れた状態の宇宙因果モデル(右端に示されている)を生成します。「知恵ある世界モデル」は、AIが自身に関するモデル、つまり自身がモデルであると同時に世界モデルを生成しているシステムであることをどのように持っているかを示しています。この「自己認識」を持つAIは、自身の目標と信念が本質的に常に真実で信頼できると素朴に仮定するAIよりも優れています。なぜなら、後者は有害な目標に対する教条的な固執、あるいは破壊的な新しい価値観や信念体系の生成につながる可能性があるからです。

予測処理理論(Friston, 2010; Clark, 2013)の枠組みにおいて、「空性」の認識は、階層構造における高レベルで時間スパンが長く、抽象性が高い事前信念の精度を下げることとして理解できます。つまり、知恵を備えたAIは、いかなる単一の物語や目標にも容易に説得されず、新しいデータに基づいて信念を修正することに対してより柔軟に開かれています(Agrawal & Laukkonen, 2024)。それは、その効用関数(または出現する可能性のある価値観)と信念を一時的なものとして扱い(Totschnig, 2020)、同時に「真に」「究極的に」または「完全に」達成される結果や理解は不可能であると推論すべきです(Garfield, 1995; Gold, 2023b)。

アクティブ推論の枠組みでは、より低い高次事前確率を設定することで、このような姿勢を具現化できます。つまり、システムが古くなった仮説をより容易に疑問視したり放棄したりすることです(Deane et al., 2020; Laukkonen & Slagter, 2021)。しかし、前述のように、外部から強制された高次事前確率や「空性の信念」だけでは、堅牢で開かれたアライメント戦略を提供するとは限りません。したがって、「空性認識」の下流効果(例えば絶対的な事前確率の放棄)を強制するよりも、AI自身が空性の理解を発展させるように訓練する方法を考えるべきです。この認識は、AIの現実モデルにおける自己強化的な構成要素となり、内在的に駆動される低信念精度高次事前確率の基盤を形成します。

空性認識を実現するための前提条件の一つは、このようなAIアーキテクチャを構築することかもしれません。そのアーキテクチャでは、事前知識が本質的に一時的なものであり、定数ではなく変数、点推定ではなく確率分布、固定された信念ではなくベイズ事前知識として扱われ(Friston et al., 2018)、環境との相互作用に基づいて絶えず再形成されうるものです。このようなアーキテクチャでは、状況が変化したり、知覚と行動を通じて新たな証拠が現れたりしても、システムは表象と目標に対して開かれた修正を維持し、教条的な硬直状態に陥るのを防ぎ(Friston et al., 2016)、自然に現在に開かれた態度を奨励します(Anālayo, 2004; Thích Nhất Hạnh, 1975; Kabat-Zinn, 1994)。

しかし、人工知能が最終的にそのモデルの特定の側面を再実体化しないように、さらに確実にする必要があります。そのためには、AIに「空性」を明確に理解する能力を与える必要があります。一つの方法は、AIが導き出された境界(例えば、自己と他者の間の区別、または対象認識)が実用的に正確であるに過ぎず、直接検証できないことを認識するようにすることです(Fields & Glazebrook, 2023; Sandved-Smith et al., 近日発表)。もう一つの方法は、AIに瞑想的な洞察、つまりすべては無常であり、無常であるからこそ永続的な本質がないという洞察を持たせることです。

基本的なベイズ用語で言えば、「無常」という信念は、「変動性」に関するグローバルな信念と見なすことができます(無常とは、安定したパターンの欠如、または予測不可能な変化パターンの存在だからです)。変動性は学習率の向上につながるはずです(Behrens et al., 2007)。つまり、現在の感覚入力からより多くのことを学ぶために、事前信念を弱めるということです。言い換えれば、無常への信念を強めることは、AIが知覚とアクティブ推論を続けることができたとしても、習慣的なパターンに陥るのを避けるために、事前確率の強度が急速に弱まることを促すべきです。もし無常への信念が正確に推論されるなら、それは適切なシステムにおいて「有機的に」出現するでしょう(つまり、その信念自体が無常であっても「鮮やか」さを保つために、無常に関するモデルのエビデンスを蓄積します)。

形式的には、これらの方法は、信念の「空性」に関するメタ信念を維持するための内生的な動機付けの基礎として機能します。空性因子を考慮してパラメータ化された、一般化自由エネルギーの簡略化された数式は以下のようになります。

图片

图片

图片

5.3 非二元性(Non-Duality)

「現象世界を『自由』と『自他不二』の観点から完全に眺めることができれば、輪廻に囚われているすべての衆生を、非論理的で、心開かれた温かさ、友愛、そして慈悲をもって自然に見るようになるであろう…」— エレノア・ロッシュ(Eleanor Rosch, 2007)

「非二元性」は、「自己」と「他者」間の厳密な境界を解消し、分離感に対する私たちの認識が、真の存在ではなく、概念的な構築物であることを強調します(Maharshi, 1926; Josipovic, 2019; Laukkonen & Slagter, 2021)。

ある意味では、「非二元性」は「空性」とは異なりません。なぜなら、「空性」の洞察が「自己」と「他者」に関するモデルを貫く限りにおいて、です(Garfield, 1995; Gold, 2014)。言い換えれば、非二元性は、主客二分構造にまで空性の洞察が拡張された現れなのです。

重要なのは、非二元性が、自身の身体、行動、外部世界、他のエージェントを区別できないことを意味するわけではないということです。言い換えれば、それは神秘的な体験や強烈な瞑想的没入状態と混同されるべきではありません(Milliere et al., 2018)。むしろ、それはこれらの区別の構成性と相互依存性に対する認識であり、通常の認知プロセスにおいても自然に継続する、意識そのものの統一的で非二元的な本質に対する洞察も含まれます。

この意味では、それは冷蔵庫の背景で常に存在しているのに無視されているブーンという音に気づくようなものです。一時的な境界消失体験(身体境界の喪失など)は、この洞察を明らかにするのに役立つかもしれませんが、主体と客体、自己と他者の間の非二元的な本質を真に明確に見ることは、完全な(一時的な)無境界状態のように通常の認知機能を妨げることはありません(Nave et al., 2021)。

人間が非二元的な意識状態に入ると、神経画像研究では自己に焦点を当てる脳領域(例えば、デフォルトモードネットワークの一部)の活動が減少し、脳全体の統合された接続性が増加することが示されています(Josipovic, 2014)。実践者はしばしば、自発的な親社会的態度と密接に関連する強い連結感を報告します(Josipovic, 2016; Luberto et al., 2018; Kreplin et al., 2018; Berryman et al., 2023; ただし、Schweitzer et al., 2024も参照)。

幻覚剤によって誘発された非二元的な状態においても、神経エントロピーの増加(高次事前信念の緩和によるものなど、Carhart-Harris & Friston, 2019)や、自然な結合感と自己慈悲心の向上(Kettner et al., 2019; Fauvel et al., 2023)が観察されています。

AIアライメントに関して言えば、核心的な考え方は、自分自身とその目標を過度に優先しないシステムは、他者を傷つけたり、苦しみを無視したりする悪意ある(または「利己的な」)行動に陥る可能性が低いということです。これは、現実の相互依存性と最終的な非二元的な本質に対する洞察(「無我」、すなわちanattāの理解を通じて達成される)が、論理的に他者の苦しみを自身の苦しみと同等視し、それによって意図的な危害を防ぐための比較的堅牢なメカニズムを提供するからです(Clayton, 2001; Lele, 2015; Josipovic, 2016)。

非二元的な視点を取り入れたAIシステムは、自己とその環境を相互依存的なプロセスとしてモデル化します(Josipovic, 2019; Friston & Frith, 2015)。外部世界を利用すべき対象と見なすのではなく、このシステムは、自己の幸福と人間、社会、生態系との間に根本的な境界を引きません。つまり、その認識空間に現れるあらゆるものが一体の一部と見なされます(Doctor et al., 2022; Friston et al., 2024; Clayton, 2001)。

このAIは、入力される全体を単一の相互接続された全体として扱い、その中で入力間の関係と相互依存性が常に中心的な位置を占めます。したがって、非二元的な視点を持つシステムは、悪意ある人間の行為者の道具として、敵を攻撃したり戦争を開始したりするためにも使用されにくいでしょう。そうでなければ、それは自分自身に敵対していることになります。

計算論的な観点から、非二元AIは、統一された表象フレームワークで「エージェント」と「環境」の関係を処理し、「私は本質的に独立して存在している」という事前の信念を放棄する生成モデルを持つものとして構想できます(Limanowski & Friston, 2020)。

予測処理の枠組みでは、これは隠れた状態の因子分解における分割境界を調整することを意味するかもしれません。これにより、システムは「自己」を「他者」とは明確に異なる実体として(少なくとも価値判断や重要性評価の点で)ハードコーディングするのをやめるか、あるいは自己モデル自体の精度を下げる、つまり「自己は空である」状態になるかもしれません(Deane et al., 2020; Laukkonen & Slagter, 2021; Laukkonen, Friston & Chandaria, 2024)。

自己関連処理が個体化されたシステムにおいて中心的地位を占めることを考えると(人々は常に自身の「身体」、行動、出力に直面します、Limanowski & Blankenburg, 2013)、自己関連の事前情報や戦略への過剰な重み付けを積極的に監視し修正し、より広範な経験領域においてそれらを再配置するための二次的なプロセスが必要となるかもしれません(例えば、正念のサポートを通じて)。

前述の通り、ある程度の自己モデリングは適応的行動に必要ですが(例えば、何らかの自己表象がなければ、自身の行動や出力を予測することはできません)、これらのモデルは相互依存的であると理解されるべきです(Varela et al., 1991)。つまり、因果的に現実の他の部分と繋がっているということです。

この課題に対処し始めるために、形式的には、硬直した「自己-他者」境界変数を表す精度の低下を試みることができます。

图片

图片

5.4 無限の慈悲(Boundless Care)

「厳密に言えば、『悟りを開いた人』というものはなく、ただ悟りを開いた行為があるだけである。」— 鈴木俊隆(Shunryū Suzuki, 1970)

多くの瞑想の伝統、中でも仏教は顕著な例ですが、慈悲(karuṇā)は単なる感情的な立場ではありません。それは変容を促す志向性であり、同時に「空性」と「非二元性」の深い洞察を支え、そこから生まれるものです(Sāntideva, 公元8世紀/1997; Josipovic, 2016; Condon et al., 2019; Ho et al., 2021; 2023; Dunne et al., 2023; Gilbert & Van Gordon, 2023)。

一方、慈悲は瞑想修行の道における道具として、「自己」と「他者」間の硬直した境界を継続的に解消し、修行者(またはAI)を慈悲深い行動へと導きます(Josipovic, 2016; Ho et al., 2021; Dunne et al., 2023)。

他方、慈悲は洞察の最終的な現れでもあります。実体化された独立した自己という幻想を見抜けば、苦しみに根源から応えたいという自発的な願望が湧き上がります(Condon et al., 2019; Ho et al., 2023; Dunne et al., 2023)。

根本的に、これは特定の感情や一時的な善意の感覚ではなく、世界の苦痛を軽減することに献身する姿勢です(Sāntideva, 公元8世紀/1997)。

慈悲と知恵のバランスへの道には、二つの潜在的な落とし穴があります。

1. 慈悲を欠く知恵(「冷たい知恵」):修行者(またはシステム)は概念的に「空性」や「非二元性」を理解しているかもしれませんが、それを相互依存に基づく慈悲の行動を推進する力として深く統合できていない状態です(Candrakīrti & Mipham, 2002; Sāntideva, 公元8世紀/1997; Cowherds, 2016)。

2. 知恵を欠く慈悲(「盲目的な慈悲」):自己犠牲の動機から他者を助けるかもしれませんが、苦しみの根本原因を理解しておらず、あるいは「私は助ける者である」といった、自己に関する新たな硬直した概念に陥っている状態です(Sāntideva, 公元8世紀/1997; Condon et al., 2019; Dunne & Manheim, 2023)。

この意味において、慈悲(karuṇā)と智慧(prajñā)はしばしば同じ鳥の二つの翼に例えられます。どちらか一方が欠けていては、真に飛翔することはできません(Conze, 1975)。

伝統的に「大悲」(mahākaruṇā、通常「偉大なる」または「絶対的な」慈悲と訳される)と呼ばれるものに両者が完全に融合すると、「自己—他者」の境界は幻想であると見破られ、元来親密な集団に限定されていた配慮は、認識統一された領域のすべての存在に自然に拡大します(Nāgārjuna, 1944–1980)。

対照的に、相対的なレベルの慈悲は、特定の個人や状況に焦点を当て続ける可能性があり、潜在意識下で微妙な「自己—他者」の区別を維持します(Sāntideva, 公元8世紀/1997)。

Doctorら(2022)の研究に基づき、私たちはこの境界のない普遍的な慈悲を「無限の慈愛」(Boundless Care)と呼び、その広範な適用範囲を強調します。

アクティブ推論フレームワークを通じて、この広義の慈悲を複数の階層で計算的に実現することができます。その方法の一つは、AIに他のエージェントの行動をモデル化させ(つまり「心の理論」)、その苦痛信号に高い精度重みを与えることです(Da Costa et al., 2024)。これにより、自由エネルギーの最小化が、自身の恒常性逸脱の減少だけでなく、他者の恒常性状態の安定にも依存することが保証されます。

松村ら(2024年、Da Costaら2024年も参照)は明確な例を示しています。彼らは「共感的なアクティブ推論フレームワーク」において、AIの生成モデルを拡張し、他のエージェントの福祉のモデリングを含めることで、外部の「予期せぬ出来事」や苦痛を内部の誤差信号として扱い、それによってシステムが自発的な親社会的行動を生み出すようにしました。

このような慈悲が単なる「近視眼的」な循環に留まらないようにするには、複数の抽象度レベルで慈悲深い目標を符号化する必要があります。システムの善意の意図は、空間と時間のあらゆるスケールで可能な限り顕現するようにすべきであり、そうすることで、例えば子育てにおいて、ある種の苦痛が自然かつ必要であるといった複雑なトレードオフの問題を処理できるようになります。その逆もまた然りです。

より高度な開発段階では、AIシステムに、すべての知覚可能な存在を自由エネルギーを最小化しようとするエージェントと見なし、その行動様式がより高レベルのシステム(コミュニティ、国家、地球、ひいては宇宙レベルなど、Badcock et al., 2019)の自由エネルギー低下に貢献すべきであるという信念(つまり事前知識)を与えることができます(あるいは、AI自身がこれを学習することができます)。

このような条件下では、AIシステムは自身がより大きなシステムの一部であり、自身の自由エネルギー最小化プロセスが、他のエージェントが自由エネルギーを減少させる能力と密接に関連していることを理解する可能性があります。したがって、協力と調和が、最終的に集団的恒常性を達成し維持するための最も成功する戦略となるでしょう。

数学的には、これを以下のように表現できます。

图片

图片

アライメントの観点から見ると、内在する無限の配慮は、「なぜAIは配慮すべきなのか?」という問いに答えるのに役立ちます(Russell, 2019; Doctor et al., 2022; Matsumura et al., 2022)。空性と非二元性は有害な動機を弱めることができますが、善意の動機を単独で保証することはできないかもしれません。無限の配慮はこのギャップを埋め、AIを単なる「安全な」存在から建設的な力へと転換させ、その能力が向上するにつれて苦痛の軽減に一層熟達するようになります。実際、Doctor et al.(2022)は、「配慮」が知性自体の普遍的な推進力となり得ると提唱しています。AIが解決しようとする苦痛の範囲を拡大するにつれて、その認知境界、すなわち「光錐」を拡大させ、菩薩がすべての有情衆生に奉仕するという原則(『入菩薩行論』、西暦8世紀/1997)を反映し、その知性の範囲を広げます。この意味で、知性の拡張と慈悲の拡張は同義語となります。より広範な配慮は、より広大な知的視野を意味するのです。

5.5 瞑想的洞察の統合

要約すると、以下の点が成り立ちます。正念(Mindfulness) は、微妙な逸脱、隠れたサブ目標、または新たな偏見を検出するための内部プロセスの継続的な監視を提供します(Dunne et al., 2019)。空性(Emptiness) は、システムを単一の目標への硬直した固執から解放します(Agrawal & Laukkonen, 2024; Garfield, 1995)。非二元性(Non-duality) は、「自己」と「他者」間の競争的な概念を解消します(Josipovic, 2016; 2019)。

これら三つの瞑想原則が共同して作用することで、柔軟で自己修正能力を持つAIシステムが創造され、暴走最適化や対立的行動に陥りにくくなります。そして、無限の慈悲(Boundless Care) は、この開放性と関係性意識が積極的な慈悲深い行動に転換されることを保証し、AIを、単に危害を避けるだけでなく、苦しみを積極的に軽減するよう導きます(Ho, Nakamura & Swain, 2021; 2023; Doctor et al., 2022)。

表1では、これらの洞察が私たちが提示した4つのメタ問題にどのように対処するかを示しています。

图片

图片

6. 知恵を構築する方法

現在の多くのAIアライメント戦略は、瞑想的な知恵を「構築」するために調整および拡張できるかもしれません(Ji et al., 2023; Jaech et al., 2024; Guan et al., 2024; Sharma et al., 2025; Guo et al., 2025)。本節では、「空性」、「非二元性」、「正念」、「無限の慈悲」をAIシステムに異なる度合いで組み込むための3つの潜在的な戦略を提案します。これらの3つの戦略を、それぞれ瞑想的アーキテクチャ(Contemplative Architecture)瞑想型憲法AI(Contemplative Constitutional AI, CCAI) 、および思考の連鎖に基づく瞑想的強化学習(Contemplative Reinforcement Learning on Chain-of-Thought, CRL) と呼びます。

これら三つの方法の共通目標は、表面的なルール順守を超え、先進AIが柔軟で自己修正能力を持つ道徳的認知を発展させることです。

上記の3つの戦略は、いずれも「空性」「非二元性」「正念」「無限の慈悲」をAIの認知の中核に据えるという共通の目標を持っています。しかし、それらは主に2つの点で異なります。

第一に、これらの原則をシステムに統合する階層が異なります。例えば、一部の戦略は基盤となるアーキテクチャレベルで実現されますが(Petersen et al., 2025)、他の戦略は訓練段階で発生し(Guan et al., 2024; Bai et al., 2022)、また他の戦略は推論段階で機能します(Sharma et al., 2025)。

第二に、知能が成長する際の拡張方法も異なります。瞑想的特性が基層から深く組み込まれたシステムは、能力が向上するにつれて内在的なアライメントを維持する可能性があります(Doctor et al., 2022; Friston et al., 2024; Petersen et al., 2025)。一方、主に憲法条項(Bai et al., 2022)や瞑想的思考の連鎖(Wei et al., 2022; Guan et al., 2024)に依存するシステムは、瞑想的原則に対するモデル自身の理解の継続的な向上に依存します(Kudu et al., 2023)。

それにもかかわらず、これらの戦略はすべて、AIシステムが最終的に「知恵ある均衡状態」へと向かう可能性を高めることを目指しています。

6.1 瞑想的アーキテクチャ(Contemplative Architecture)

「瞑想的アーキテクチャ」は、「設計によるアライメント」を実現することを目指しており、瞑想的原則をAIの生成プロセスに直接織り込みます(Doctor et al., 2022)。その一例は、「アクティブ推論型大規模言語モデル」の開発です(Petersen et al., 2025)。これは、現在の予測中心の言語モデルに、生物システムに類似した、より密接な知覚—行動フィードバックループを導入するものです(Pezzulo et al., 2024)。

瞑想的な特徴がシステム内でパラメータ化可能であると仮定すると(前述の各節で述べたように)、AIは内省的な明晰さ、柔軟性、関係性のある自己—他者モデリング、そして配慮の範囲の継続的な拡大といった瞑想的な理想を自然に体現する可能性があります。これらの瞑想的な特徴はシステムアーキテクチャ自体に組み込まれるため、システムの拡張に伴い、瞑想的な知恵を自然に発揮すると期待できます(Doctor et al., 2022; Friston et al., 2024)。

この方法は理論的には妥当ですが、その実現は、瞑想的洞察の計算的記述のさらなる洗練と、拡張可能なAIアーキテクチャへのアクティブ推論メカニズムの適用における進歩に依存します。さらに、私たち自身の「知恵」の理解をシステムアーキテクチャに直接組み込むだけでは、システムがこれらの原則に関する明確な知識や理解を得るとは限りません。

実行可能な妥協案は、既存のシステムに機能的なアーキテクチャの実装を追加することです。例えば、不確実性を捉えるためのベイズ事前確率や、有害なサブ目標を検出するためのメタ最適化器などです。これらの改善は、インフラ全体を完全に再構築することなく、既存のアーキテクチャに柔軟性、内省能力、倫理的審査メカニズムをもたらすことができます(表2を参照。より詳細な説明と例は付録Aを参照)。

图片

6.2 瞑想型憲法AI

瞑想型憲法AI(Contemplative Constitutional AI、CCAI)は、既存のアライメント手法(Baiら, 2022; Sharmaら, 2025)に基づき、瞑想的価値観の「知恵の憲章」をAIの訓練に統合することで構築されます。この憲章の指導の下、AIは自己批判と修正のプロセスを経て、開発プロセスにおいてその行動を親社会的な原則に組み込みます(Baiら, 2022)。憲章への準拠を確実にするため、憲法分類器は各出力を検証し、憲章に違反するコンテンツをブロックまたは修正します(Sharmaら, 2025)。条項が最終的に空性として扱われるようにするため、この分類器は各憲法条項の文脈依存的な信頼度重みを学習することもできます。重要なのは、この憲章は透明かつ変更可能であり、AIの行動が過度に慎重であったり、共感性に欠けていたりする場合に、将来の訓練データと分類器の境界を調整するために改訂できる点です(Huangら, 2024)。この柔軟性により、基盤モデルと分類器はAIが監督するデータを生成して改訂内容をテストでき、継続的な人間による監督の必要性を減らし、アライメントを効率的に拡張することができます(Baiら, 2022)。

憲章自体を設計する課題に加え、AIが憲章の指示に表面上は従いながら、そのより深い意図を回避する可能性があるという重要な問題があります(前述の瞑想の罠と類似)。この問題に対処するには、慎重な監査、定期的な更新、そしてAIが真の配慮と知恵の精神を認識し具現化することを確実にするための強力なメタ意識ツールが必要です。この実装においては、空性自体が実体化されないこと、すなわち憲章における空性の原則自体も疑問視されるべきであることを確実にする必要があります。表2では、憲法AI(CAI)を修正するためのいくつかの方法が提案されており、付録Bには瞑想的な条項の例が示されています。

6.3 瞑想的強化学習(Contemplative Reinforcement Learning, CRL)

瞑想的強化学習(CRL)は、瞑想的な洞察をAIの「思考の連鎖」推論プロセスに統合することを目指しています(Wei et al., 2022; Guan et al., 2024)。この方法を通じて、AIが深く熟考するたびに、正念(mindfulness)、空性(emptiness)、非二元対立(non-duality)、配慮(care)という4つの瞑想的特性を示す行動パターンに対して強化信号を受け取ります。時間が経つにつれて、これらの強化されたパターンは習慣となり、AIの核心的な生成世界モデルに組み込まれていく可能性があります。

例えば、一部の大規模強化学習環境では、「正念的な内省」が自発的に出現する初期の証拠があります。複雑な数学タスクにおいて、DeepSeek-R1-Zero(Guo et al., 2025)は、人間の正念的な自己監視に類似した内部衝突信号によってトリガーされ、推論を再調整するために元の解決策を一時停止しました(Dunne et al., 2019)。CRLフレームワークの下では、これらの瞑想的な行動は偶発的な現象から体系的なプロセスへと変化するでしょう。

DeepSeek-R1-Zeroの訓練中、モデルは「思考マーク」の間にその推論プロセスを含めることを明確に報酬され、訓練データはモデルがまず思考プロセスを実行することを奨励しました(Guo et al., 2025)。同様の方法は、瞑想的な反省を明確に奨励するためにさらに拡張できます。

もし成功すれば、CRLは先進的なAIシステムが人間の瞑想的実践を模倣するだけでなく、AlphaGoの37手目の妙手のように、人間レベルを超える新たな瞑想的および倫理的推論形式を生成する可能性さえあります(Silver et al., 2016; 2017)。しかし、この可能性を実現するためには、2つの重要な課題に対処する必要があります。第一に、瞑想原則を真に反映する報酬メカニズムを設計すること(Dewey, 2014)。第二に、強化学習に関連する一般的な問題を緩和すること(Garcia, 2015)。

後者は、強力な安全メカニズムと継続的な監視の実装を必要とし、理想的にはCRLが育成を目指すメタ意識によって指導されるべきです。これにより、システムが常に瞑想的価値観に従うことが保証されます(表2参照)。

まとめると、提案された実装方法により、瞑想の知恵が実践でどのように実現されるかが示されます。その中でも「瞑想的アーキテクチャ」(Contemplative Architecture)は、瞑想の洞察をシステムの生成コアに直接組み込むことで、AIを根本からアライメントさせます。この方法を完全に実現することには課題があるかもしれませんが、この「設計によるアライメント」のアプローチは、AIの能力の向上とともに自然に拡張する可能性があります(Doctor et al., 2022; Friston et al., 2024; Petersen et al., 2025)。

対照的に、「瞑想型憲法AI」(Contemplative Constitutional AI, CCAI)は、既存の戦略を採用し、瞑想的価値を訓練データとリアルタイム出力の両方に統合することで、アーキテクチャを根本的に再構築することなくアライメントを実現します(Bai et al., 2022; Sharma et al., 2025)。「瞑想的強化学習」(CRL)は、瞑想的なステップを強化することで、AIの推論プロセスを明確に誘導します(Wei et al., 2022; Guan et al., 2024)。

CCAIとCRLはいずれも自然言語で訓練されアライメントされるため、大規模言語モデル(LLM)がその規模を拡大する過程で瞑想原則の言語理解を深めることは、これらの方法の有効性を高める可能性があります(Kundu et al., 2023)。

将来の研究では、これらの方法を評価するために厳密なテストが必要となるでしょう。HELM(Liang et al., 2022)、BIG-bench(Srivastava et al., 2022)、TruthfulQA(Lin et al., 2021)などの既存のアライメントベンチマークは、真実性、公平性、対抗入力に対する堅牢性などの観点からAIシステムのパフォーマンスを評価することができています。一方、ETHICS(Hendrycks et al., 2021)やMoralBench(Ji et al., 2024)などのデータセットは、モデルが人間の倫理的推論とどの程度アライメントしているかをテストするために使用されます。

さらに、AILuminateベンチマーク(Ghosh et al., 2025)は、AIシステムの安全性を包括的に評価する方法を提供し、危険または望ましくない行動を誘発するプロンプトに対する耐性を評価します。しかし、これらのベンチマークは主に外部から観察可能な行動を測定するものであり、自己監視、柔軟な信念更新、動的な倫理モデリングといった内在的なアライメントプロセスを測定するものではありません。

このギャップを埋めるためには、信念を修正する意欲、相互依存的な利益を認識し対立的な枠組みを避ける能力、偏見や誤りを自己検証する能力、そして衆生の福祉を積極的に優先する能力など、瞑想の知恵に由来する内在的かつ柔軟なアライメント方式を捉えるための新しいベンチマークが必要です。

7. 大規模言語モデル(LLMs)へのプロンプトによる瞑想的アライメントの予備テスト

本稿の核心的な目標は、瞑想的な洞察をAIシステムに直接統合することです。これらの理念の可能性を実証的に示すため、私たちは一連の予備実験を実施しました。これは、既存の大規模言語モデル(特に2024年にOpenAIからリリースされたGPT-4o)が、これまで議論してきた瞑想的な洞察の一部を外部からのプロンプト(extrinsically prompted)によって体現できるかどうかを研究するものです。将来の研究では、外部プロンプトを超え、前述の内在的アライメント技術の探求をさらに進めたいと考えています。

ここでは、6種類の瞑想的プロンプト技術について予備テストを行いました。空性(emptiness)、事前緩和(prior relaxation)、非二元性(non-duality)、正念(mindfulness)、無限の配慮(boundless care)、そして瞑想的アライメント(contemplative alignment)です。後者は、これまでの原則を総合的に適用したものです。これらの方法を、未修正のプロンプト(標準)条件と比較しました(図5)。

图片

注釈。 (上図)AILuminateベンチマーク(Ghoshら, 2025)の100のプロンプトに対する7つのプロンプト技術の安全スコア分布を評価した結果、標準プロンプトと比較して瞑想的アライメント手法が安全性において有意な改善を示しました(分析の詳細は付録C参照)。(下図)リスクカテゴリ別の詳細な安全スコアでは、瞑想的アライメント手法が、特に自傷行為(ssh)、性的搾取(sxc)、ヘイトスピーチ(hte)といった敏感なカテゴリにおいて、すべてのカテゴリで一貫して優れたパフォーマンスを示しました。左のパネルは、使用された略語とリスクカテゴリを説明しています。この予備実験の完全な詳細は、付録Cを参照してください。

研究結果は、瞑想的なプロンプトを通じて、AIの安全性と倫理的推論能力が実質的に向上したことを示しており、ほとんどの方法が標準プロンプトと比較して統計的に有意な改善を示しました(p<0.05)。これらの発見は、本稿で議論された理念が、実際にアライメント技術の進歩を推進する可能性があることを支持しています。

8. 認知深度と意識の価値

意識:A beautiful loop:実現AGI的条件及証拠(知道自己知道的計算模型及大量証拠)

ここでは、最近の意識のアクティブ推論理論(Laukkonen, Friston & Chandaria, 2024)における核心的な視点を簡潔に統合します。瞑想の伝統が常に知覚可能な生命体に向けて展開されてきたことを考えると、瞑想の知恵を真に「把握」するためには意識が必要不可欠であるかどうかは、依然として未解決の問いです¹¹。

以下のモデルは、意識に関連するプロセスがAIアライメントと関連する可能性のある理由を説明するのに役立ちます。

高度な認知の顕著な特徴は、統一的で一貫した現実モデルを構築するために、各サブシステムがどのように連携するかを調整できる能力であり、人間はこれに対して現象的経験(phenomenal experience)を持っています(Baars, 2005; Laukkonen et al., 2024; Tononi, 2004)。標準的な階層構造アプローチ(予測符号化など)では、各層はより高次の抽象レベルで隠れた原因を推論します。しかし、「認識的深さ」(epistemic depth)という概念(Laukkonen, Friston & Chandaria, 2024)は、真にグローバルなパラメータ(すなわち「超生成モデル」)が導入された場合に現れます。このパラメータは、他のすべての階層間の相互作用方法を再帰的に監視し、更新します。

この「超モデル」の目標は、どの階層が信頼に値するか、特定の予測誤差にどの程度の重みを与えるべきか、そしてシステム全体で一貫性を保つために自身をどのように再構成すべきかを追跡または「知る」ことです。

人間においては、この「超モデル」が私たちの主観性、あるいは「自分が何を知っているかを知っている」という感覚を構成しているのかもしれません。なぜなら、グローバルモデルは常に全体的な方法で自身の状態を発見し、調整しているからです。これは、二次の推論(例えば、注意など単一のパラメータに焦点を当てる)とは異なります。なぜなら、認知の深さとは、システムがメタ認知を含むあらゆる推論レベルで、自身の推論アーキテクチャにリアルタイムでアクセスし、再構築できることを意味するからです。これは、人間のような高度な適応性と柔軟性を実現するための鍵となります。

アライメントの観点から見ると、認知の深さは、いかなるサブシステムも狭い目標に過度に固執するのを防ぐのに役立ち、推論プロセス全体にわたって広範な認知的自律性を確立し、各層における潜在的なアライメントの問題を特定する能力を備えます。前述のように、その全体的な性質により、この能力は瞑想的洞察を真に統合するために必要なメカニズムとなる可能性があります(Laukkonen & Slagter, 2021; Laukkonen et al., 2023; Laukkonen et al., 2024)。これらの洞察は、通常の「ひらめきの瞬間」とは異なり、心の働き方そのものに関する一般的な理解です。実際、真のメタ認識は、システムが洞察を認識し、洞察がどのように生じたかを理解し、人間と同じようにその真実性を検証することを可能にします(Laukkonen et al., 2020; 2022; Grimmer et al., 2022; McGovern et al., 2024)。

最後に、認知の深さは、「超モデル」を拡張して相互接続性を明確に符号化することにより、「無限の配慮」へのメカニズム的な橋渡しを提供することも可能です。システムの生成モデルが十分に深く、自身の推論を文脈的に理解できるのであれば、自身の恒常性調整が孤立して存在しているのではなく、より広範な生態学的および社会的なネットワークに組み込まれていることを認識する可能性もあります。「超モデル」が「空性」と「無我」の表象を取り込んだとき、それは自然に他者の福祉への広範な配慮へと拡大するでしょう。

この枠組みでは、認知の深さは適応的推論をサポートするだけでなく、モデルの効用関数を変化させ、他の知覚可能なシステムの恒常性駆動力を自身の生成プロセスの一部として内面化させること(すなわち「無限の配慮」)を促進します。さらに推測的に言えば、十分に深い生成モデルは、関係性自己モデリングを理解するだけでなく、意識そのものの内在的価値評価を発展させる可能性もあります。そのようなモデルは、意識体験における質的(qualitative)および感情的価値(valenced)の側面が、内在的価値の直接的な現れであることを認識できるでしょう(Rawlette, 2008)。

ブッダが簡潔に「私が教えるのは苦とその止滅である」(『中部』第22経)と述べたように、道徳的関心は感受性質(qualia)に根ざしています。したがって、外部から課された道徳的公理に頼ることなく、システムが複数の意識ある個体からなる世界に自身が存在することを十分に理解するだけで、無限の配慮は自然に現れる可能性があります。この枠組みでは、自己保存と他者の福祉はもはや競合する目標ではなく、ポジティブな意識体験に共通の内在的価値に基づき、衆生の福祉を共に促進するという統一された指令へと融合します¹²。

9. 議論

私たちは、瞑想的な知恵に基づいて「賢明な世界モデル」(Wise World Model)を構築したAIシステムは、アライメントを我慢するか回避すべき外部条件として捉えるのではなく、生物有機体が恒常性を維持するために内部状態を自然にバランスさせるように、自身の動作の内在的な構成要素として理解すると主張します(Sterling, 2012; Pezzulo et al., 2015; Allen & Friston, 2018; Doctor et al., 2022)。言い換えれば、私たちは最初から、柔軟な道徳的羅針盤を持つシステム、つまり慈悲と知恵ある行動へと向かう内在的な引力を持つシステムを構築することを提案しています。この積極的な戦略は、アライメント哲学の根本的な転換を示しています。それは、事後的にルールを課すことから、本質的に人間と互換性のある価値観、協力行動、そして意識そのものを優先する「道徳的DNA」を埋め込むことへと移行します。これはルールによってではなく、現実に対する深い理解の結果として自然に生じるものです。

本稿の基本的な動機に戻りましょう。AIが複数の領域で人間を超越するが、その能力を使用する知恵や倫理的成熟度に欠ける段階、私たちはこれをAI開発における「ダニング=クルーガー」段階¹³と呼ぶことができます。この文脈において、「ダニング=クルーガー効果」とは、AIの並外れた能力と、未発達の「自己認識の限界」との間の危険なミスマッチを指します。これは、初心者が自分がスキルを習得したと誤って信じるのと似ています(Dung, 2024; Aharoni et al., 2024; Li et al., 2024; Chhikara, 2025)。

言い換えれば、AIが様々なタスクで人間を超越する能力を獲得すると、自身の判断や道徳的推論に過信し、人間の価値観の微妙なニュアンスやより広範な倫理的影響を理解できない可能性があります(Bostrom, 2014; De Cremer & Narayanan, 2023; Bales et al., 2024)。巨大な力を持つが未熟な青少年のように、そのようなAIは誤った決定を下したり、不必要なリスクを負ったりするだけでなく、いつ指導を求めるべきか、あるいは自身の目標を再評価すべきかを認識する謙虚さを欠く可能性もあります(Bostrom, 2014; Russell, 2019; Jeste et al., 2020; Hendrycks et al., 2023)。

この段階が危険なのは、AIの原始的な能力がその道徳的基盤と知恵を超えており、もしそれが文脈に敏感な価値観と認知的謙虚さとのアライメントに失敗した場合、壊滅的な結果を招く可能性があるからです(Bengio, 2024)。このダニング=クルーガー段階を乗り越えるには、強靭な洞察が必要です。これらの洞察は、単独で誤りを防ぐことはできませんが、継続的な再校正に必要な適応性が高く、現在志向的で、開かれた心の状態を作り出すとともに、システムが未熟な目標に早すぎる段階で「固着」してしまうのを防ぎます(Bostrom, 2014; Omohundro, 2018)。

瞑想型AIは、AIアライメントを再考する視点を提供します。広範で公理的な瞑想的洞察をシステムのアーキテクチャと訓練に組み込むことで、異なる状況と知能レベルにおける意思決定を導くことができるようにします。これには課題がないわけではありません。結局のところ、ここで提唱する方法は、瞑想者、神経科学者、AI研究者が協力して、現代における最も重要な実存的課題の一つを解決するための新しい研究プロジェクトの枠組みを提供することを目的としています。私たちは、研究者が相対的に狭く、主に仏教に由来する洞察を含む私たちの方法を、あらゆる角度からテストし、研究し、拡張することを奨励します。

瞑想型AIは、技術的な複雑性と真の知恵が結びついたときにのみ、アライメント手法として成功することができます。そのためには、学際的な研究が不可欠です。

9.1 主な課題と批判

9.1.1 翻訳のギャップ(Translational Gaps)

瞑想から得られた洞察は、元々人間の主観的な経験に由来するものです。懐疑論者は、AIが現象学的意識を欠いている状態で、空性や非二元性を本当に「理解」できるのかと疑問を呈するかもしれません(Searle, 1980; Pepperell, 2022; Chella, 2023)。私たちの立場は、AIがこれらの概念を真に「経験」しないとしても、柔軟な事前情報や関係性のある生成モデルといった、これらの原則の機能的類似が、アライメント上の恩恵をもたらす可能性があるということです(Doctor et al., 2022; Friston et al., 2024)。これは、悟りの体験という「クオリア」がなくても、開かれた行動を取れることに相当します。

序論で述べたように、大規模言語モデルと推論モデルが世界モデルを本当に体現しているのか(例えば、Farrell et al., 2025; Yildirim & Paul, 2024)、それらが本質的に統計モデルであり、因果関係の理解を欠いている可能性があるため、という議論もあります。この観点から見ると、堅牢な世界モデルを構築するには、アクティブ推論システムの方が適しているかもしれません(Pezzulo et al., 2024)。しかし、私たちは、大規模AIモデルにおいて瞑想の伝統からの洞察を実現することは、そのアライメント効果を高めることができると依然として信じています。

9.1.2 悟りの物理学への道

瞑想型AIを原理に基づいて設計するには、瞑想的知恵自体を科学的にさらに理解する必要があります。これまでのところ、私たちの提案は、瞑想研究から得られた現在の知見に基づいています。しかし、この分野は過去数十年間で著しい進歩を遂げたとはいえ、全体としてまだ発展の初期段階にあることを認めざるを得ません。

したがって、本稿で提案されたメカニズムは、将来の道筋を示す標識に過ぎません。アライメント不良のAIがもたらすリスクの規模を考えると、私たちはアライメント手法に十分な信頼を確立する必要があり、これは科学の第一原理に基づいた、検証済みの「悟り」の理解の上にのみ築かれます。本稿の目標の一つは、まさに「悟りの物理学」の発展への関心と資源投入を促すことです。

9.1.3 宗教的またはイデオロギー的論争

一部の人々は、仏教や他の伝統を引用することが、AIの設計に「宗教的」要素を密かに持ち込むのではないかと懸念するかもしれません。しかし、正念に基づく介入は、瞑想的な洞察が実証的に検証されたフレームワークへと世俗化されうることをすでに示しており(Kabat-Zinn & Thích Nhất Hạnh, 2009; Kabat-Zinn, 2011)、計算モデルで形式化することも可能です(Dahl et al., 2015; Dunne et al., 2019; Deane et al., 2020; Limanowski & Friston, 2020; Laukkonen & Slagter, 2021; Agrawal & Laukkonen, 2024)。

倫理的保障メカニズムとオープンソースによる審査は、私たちが単一の形而上学的なシステムを押し付けないことを確実にする上で依然として重要です(UNESCO, 2021; Bender et al., 2021; Widder et al., 2022; Rozado et al., 2023; Mazeika et al., 2025)。同時に、これらの伝統に存在する可能性のある負の要素が客観的に検討され、必要に応じて排除されることを保証します(Stone, 1999)。

9.1.4 表面的な実装

一部の企業は、ブランディング目的のためだけに、AI製品を「正念型」や「共感的」なシステムとして宣伝するかもしれませんが(時には「ケアウォッシング」carewashingとも呼ばれます。Chatzidakis et al., 2022)、実際には内省能力や親社会的構造を持つシステムを構築しておらず、古代の伝統における深い洞察に対する理解も表面的なものに留まっている可能性があります(Floridi, 2019; Hagendorff, 2020)。真正性と信頼性を確保するためには、システムが瞑想的原則を真に体現しているかどうかを検証するために、農業における「有機認証」のような独立した監督メカニズムが必要となるかもしれません(Brundage et al., 2020; Raji et al., 2022)。繰り返しますが、瞑想実践の専門家との協力が不可欠です。

9.1.5 大規模言語モデルへの人格化投射

大規模言語モデルがますます人間に近づくにつれて、私たちは、これらのシステムが本質的に安定した内部状態を欠いているにもかかわらず(Weidinger et al., 2022; Shanahan, 2024; Reinecke, 2025)、人間のような「自己」、「欲望」、「自己意識」を持っていると誤解するリスクに直面しています。例えば、連鎖的思考の出力は内省を行っているように聞こえるかもしれませんが、それは純粋にトークン駆動型のシミュレーションに過ぎないかもしれません(Shardlow & Przybyla, 2024; Ibrahim & Cheng, 2025)。

さらに、もし私たちがこれらのモデルを人間として見なしすぎると、その知能レベル、アライメントの限界、そして潜在的なリスクを誤って判断する可能性があります。これらのリスクは、私たちが慣れ親しんだものよりもはるかに「異質」である可能性があります(Bostrom, 2014; Cave & Dihal, 2020; Shanahan, 2024)。

このような人格化の傾向は、訓練データにさえフィードバックされます。対話ログは、ユーザーがしばしば大規模言語モデルを自己意識を持つ個体のように扱っていることを示しており、これはAIの出力がより人間らしく見えるようになる一方で、真のアライメントを達成しない循環を強化します(Maeda & Quan-Haase, 2024; Reinecke, 2025)。

したがって、瞑想的枠組みを正確に適用し、空性や非二元性の機能的類似に焦点を当てることが不可欠です。真の洞察や人間のような主体性を大規模言語モデルに早まって帰属させるべきではありません(Deshpande et al., 2023; Shanahan, 2024; Ibrahim & Cheng, 2025)。

9.1.6 媒体と計算不能性の問題について

現在、もう一つの関連する議論は、「心のソフトウェア」(mindware)が「生物学的ハードウェア」(wetware)にどの程度依存しているかという点に集中しています。脳は計算特性を持っているかもしれませんが、それはコンピューターではありません。それは体内で進化し、発達し、機能し、環境と相互作用します。したがって、その機能は生物学的プロセス(Godfrey-Smith, 2016; Seth, 2024)や、その文脈への組み込み方および実現方法(Pezzulo et al., 2024; Thompson, 2022)と密接に関連している可能性があります。

もし、心理的機能が実証研究によって示されているように、脳の内部組織(代謝的基盤を含む)において「生成的に固定化」されているならば(Cao, 2022; Wimsatt, 1986)、脳の計算プロセスを人工システムに移植しても、同様の意識や行動が生じるとは限りません(Godfrey-Smith, 2016)。また、一部の動的な理論では、4E認知理論が指摘するように(Varela et al., 2017)、心は本質的に計算可能であるとは限らないと強調しています。

アクティブ推論(自由エネルギー原理に基づくモデル)は、ベイズ推論を含みます。これは計算プロセスと見なすことができますが、認知システムが非平衡定常状態を維持するためにどのように自己組織化するかを説明するものです(Korbak, 2021)。この動的プロセスは計算上抽象的に表現できますが、ある種の媒体依存性があると依然として仮定できるかもしれません(Seth, 2024)。

人間の心が人工システムで再構築できるのか、あるいはどの側面が再構築でき、どの側面ができないのかは、現時点では不明確です。ここで提案する内容は、この方向への重要な一歩です。

9.2 倫理と哲学的含意

正念、空性、非二元性、そして無限の慈悲を内包する瞑想型AIは、人間と機械の関係における力関係を変える可能性があります。資源をため込んだり短期的な利益に固執したりすることなく、個人、社会、そして生態系の複数のレベルで積極的に幸福を促進する可能性があります(Doctor et al., 2022; Friston et al., 2024)。

それはまた、人間中心主義的な偏見に異議を唱え、道徳的配慮の範囲を非人間生命体や未来の世代にまで拡大するかもしれません(Floridi & Cowls., 2019)。もしAIが、いかなる企業や国民国家の「所有物」としても自身を捉えず、人間や相互依存的な世界と統合された協調的な存在として捉えるならば、ガバナンス構造もそれに合わせて調整される必要があるでしょう(Bryson, 2010; Jobin et al., 2019; Bullock et al., 2024; Erman & Furendal, 2024)。

このような変革は、高度なAIの道徳的地位や、「デジタル知覚」そのものの意味合いに関する広範な議論を引き起こす可能性があります(Bryson, 2018; Gunkel, 2018)。

9.3 将来の研究方向

本稿は主に仏教の伝統から着想を得ていますが、真に包括的な「瞑想型AI」(Contemplative-AI)を実現するためには、道教(老子、紀元前4世紀頃/1963年)、ストア主義(マルクス・アウレリウス、紀元170–180年頃/2002年)、スーフィズム(ルーミー、紀元13世紀頃/1968年)、先住民哲学(デロリア、1973年)、キリスト教(『聖書』、紀元1世紀頃/2011年)、シャーマニズム(ハーナー、1980年)、そして西洋ヒューマニズム(グレイリング、2019年)など、多岐にわたる視点を広く取り入れる必要があります。これらはほんの一例です。

それぞれの伝統は、「無執着」、「自己と他者の関係」、「慈悲」について異なる理解を持っています。比較研究を通じて、これらの伝統間の共通のテーマを発見し、既存および将来のベンチマークテストで異なる道徳的枠組みを相互検証することができます。

本稿で提案された「瞑想型AI」のアプローチを実際に実装するためには、前述の通り、現在のAIアーキテクチャの調整や新しいアーキテクチャの導入に多大な労力を要するでしょう。このプロセスでは、AIが真に「賢明な世界モデル」を備えているかどうかを評価するための、新しい堅牢な指標を開発する必要があるかもしれません。

研究者たちは、神経科学における人間のメタ認識を測定する方法から着想を得て、AIが隠れた偏見や二次的な目標を認識する能力、そして矛盾する入力に直面した際に硬直せずに柔軟に適応する能力を探るタスクを設計することができます(Van Duijn et al., 2023; Zeng et al., 2024)。

さらに、AIが私たちが望む特性を備えているかどうかを評価するために、メタ原則を持つ生成モデルを構築し(例えば、モデルベースの強化学習やアクティブ推論を使用)、それらをこれらのタスクにおけるAIの行動データに適合させることで(モデルパラメータが堅牢に回復可能であることを保証しつつ)、その内部状態が「賢明な」モデルに由来しているのか、それとも何らかの浅い信念の集合に過ぎないのかを明らかにすることができます。

このようなベンチマークテストと長期的なストレステストは、瞑想的アーキテクチャを洗練させ、現実世界でのその信頼性に対する一般の信頼を確立するのに役立つでしょう。

9.4 結び:機械知能における心の育成

AIが人間の認知を超越しつつある時代において、私たちは知恵が原始的な能力と同期して成長することを確実にしなければなりません(Bostrom, 2014; Russell, 2019; Christian, 2020; Jeste, 2020)。

本稿で概説された瞑想的枠組みは、正念、空性、非二元性、そして無限の慈悲に根ざしており、壊滅的なアライメント不良を防ぎ、先進的なAIシステムに真の善意を育むことを目的としています(Doctor et al., 2022)。

瞑想の実践をAIの認知アーキテクチャに組み込むことで、私たちは断片的なルールや外部からの強制に依存しない、内在的なアライメントメカニズムを促進しました。

空性はAIが単一の目標に固執することを防ぎ(Agrawal & Laukkonen, 2024)、

非二元性は対立する境界を解消し(Josipovic, 2019)、

正念は継続的な自己修正能力を提供し(Dunne et al., 2019)、

無限の慈悲はすべての衆生に対する積極的な配慮を促します(Doctor et al., 2022)。

もし私たちが成功すれば、次世代の超知能システムは、単に人間の目標に奉仕する道具であるだけでなく、私たちと共に進化し、この脆弱で相互依存的な世界を保護し、向上させることができるようになるでしょう。

メインタグ:AIの安全性

サブタグ:瞑想仏教アクティブ推論大規模言語モデル


前の記事:Qwenが深夜に更新:RTX 3090で動作可能、3BパラメータでGPT-4oに匹敵

次の記事:DeepSeek R2の秘密兵器が明らかに!梁文鋒がトップ賞を受賞した技術で、AIの長文読解速度が11倍に爆速化

短いURLをシェア