用於超級對齊的沉思智慧
https://arxiv.org/pdf/2504.15125
摘要
隨著人工智慧(AI)的進步,傳統的對齊策略在面對不可預測的自我改進、隱藏的子目標以及智慧系統的複雜性時可能失效。我們主張在AI的認知架構和世界模型中內建固有道德,而非透過外部手段約束行為。受冥想智慧傳統的啟發,我們展示了四項公理化原則如何能在AI系統中培育出具有韌性的智慧世界模型:首先,正念(mindfulness)使能自我監控和對湧現子目標的重新校準;其次,空性(emptiness)防止教條式的目標固著並弱化僵化的先驗假設;再來,非二元性(non-duality)消弭對抗性的自我-他者邊界;最後,無量慈悲(boundless care)驅動普遍減少痛苦的動機。研究發現,引導AI對這些原則進行反思可改善其在AILuminate基準測試中的表現(基於GPT-4o),特別是原則的組合應用效果更佳。我們為當前最先進的模型提供了詳細的實作策略,包括:沉思式架構、憲法機制以及思維鏈強化方法。對於未來系統,主動推論框架(active inference framework)可能為具身智慧體提供所需的自組織和動態耦合能力來實踐這些洞見。這種跨學科方法為現有脆弱的控制方案提供了具備自我修正和韌性的替代路徑。
關鍵詞:人工智慧;神經科學;冥想;佛教;對齊;超級對齊;大型語言模型;類神經網路;機器學習;正念;慈悲;關懷;非二元性;冥想科學;神經現象學
1. 引言
隨著人工智慧(AI)在許多基準測試中接近甚至可能超越人類水平的表現(參見圖1),我們面臨一個存在性的挑戰:確保這些日益自主的系統仍然與我們的價值觀和倫理保持一致,並支持人類的繁榮發展(Bostrom, 2014;Russell, 2019;Kringelbach 等,2024)。傳統的策略,如可解釋性(Linardatos 等,2020;Ali 等,2023)、監督機制(Sterz 等,2024)以及事後控制(Soares 等,2015),最初是為當前有限範圍的系統設計的。尤其是在超級智慧級別的行為面前,這些方法可能會顯得無能為力(Leike & Sutskever, 2023;Bostrom, 2014;Amodei, 2016;Russell, 2019),就像一個國際象棋新手試圖與一位特級大師周旋一樣徒勞(James, 1956)。
註釋。 「研究生程度的防谷歌問答測試」(Graduate-Level Google-Proof Q&A Test,GPQA)由一系列選擇題組成,在這個測試中,即使可以訪問網際網路也不會帶來任何優勢。博士學歷者在自己專業領域外的問題上準確率為34%,而在自己專業領域內則高達81%(Rein 等,2024)。該測試凸顯了推論模型的進步如何加速人工智慧能力的提升。
在本文中,我們提出了一種全然不同的思考人工智慧對齊問題的方式,這種思路受到佛教智慧傳統的啟發。其基本理念是:穩健的對齊策略應著重於發展一種內在於系統世界模型中的、具有自我反思能力的適應性,而不是依賴脆弱的自上而下的規則。我們展示了四個關鍵的冥想式原則——正念(Mindfulness)、空性(Emptiness)、非二元性(Non-duality)與無量慈心(Boundless Care)——如何賦予人工智慧系統以堅韌的對齊能力。我們還說明了這些深刻的洞見如何在人工智慧系統中實現,並提出「主動推論」(active inference)的人工智慧模型或許最能模擬那種真正體現和踐行沉思智慧所需的自我組織與動態耦合能力。
人工智慧對齊問題眾所周知非常困難。例如,在預測和控制人工智慧行為方面存在一個雙重疊加的挑戰。首先,隨著人工智慧系統迅速演化並不斷增多,用來衡量其安全行為的基準也隨著能力的提升而持續變化(Ganguli 等,2022;Wei 等,2022)。這使得我們極難預測這些系統可能出現的對齊偏差。其次,歷史趨勢表明(ArkInvest,2024),我們往往低估了這些系統的進步速度。因此,人工智慧偏離人類價值觀的方式不斷變化,而我們預測和預防這些問題的能力卻在減弱。
但我們並非完全沒有經驗來應對一般智慧系統的對齊問題:那就是人類本身。雖然人工智慧不是人類,但用於對抗人類偏見的策略,很可能適用於那些以人類文化和語言為基礎進行訓練的系統。畢竟,已有研究表明,這類機器學習架構在道德相關的方式上可以模擬人類的心理現象,例如大型語言模型(LLM)中的偏見就與人類偏見相似(Navigli, 2023)。事實上,沉思性的智慧傳統已經用數千年時間應對著可被視為「人類版」的對齊問題,旨在培養持久的「對齊」狀態,表現為個人內心的滿足與社會的和諧(參見 Farias 等,2021,該文集涵蓋了如今廣義上的「冥想」傳統)。這些實踐方法不僅在科學上得到了支持,也在大眾中日益流行,並吸引了越來越多的實證研究興趣(Tang 等,2015;Van Dam 等,2018;Baminiwatta & Solangaarachchi,2021)。因此,我們可以合理地期待,人類數千年來關於「內在」心智對齊的研究,或許能為人工心智的對齊提供有價值的洞見。
特別是受佛教啟發的沉思性實踐,已經深刻影響了現代心理健康干預方式。來自冥想的洞見如今已成為許多一線心理療法的核心,包括基於正念的認知療法(Gu 等,2015)、慈悲導向療法(Gilbert, 2009)以及辯證行為療法(Lynch 等,2007),這些療法旨在「建構」健康、智慧且富有同情心的人類心智,使其能夠跨越發展階段、文化背景與智力水平而擴展(Gu 等,2015;Kirby 等,2017;Singer & Engert, 2019;Goldberg 等,2022)。沉思科學(尤其是冥想的神經現象學)也在不斷擴大我們對心智、大腦與意識的基本理解(如 Varela 等,2017;Fox 等,2016;Metzinger, 2020;Ehmann 等,2024;Berkovich-Ohana 等,2013;2024;Lutz 等,2007;Laukkonen & Slagter, 2021;Laukkonen, Friston, & Chandaria, 2024)。這種從沉思傳統到認知與計算神經科學的橋梁,為人造智慧領域提供了可行解決方案的基礎。
在本文中,我們旨在說明沉思科學(contemplative science)的這些發展可以用來在合成系統中建構「智慧」與「關懷」;實質上將研究沉思心智的方向轉變為製造沉思心智以實現對齊目標。我們提出,主動推論(active inference)可能提供一個有用的起點,因為這一受生物學啟發的計算框架(Friston, 2010;Clarke, 2013;Hohwy, 2013)提供了關鍵參數,使得實現沉思性洞見變得特別可行(Laukkonen & Slagter, 2021;Sandved-Smith, 2024)。此外,與當前的大規模人工智慧模型相比,主動推論中的生成模型(generative models)能夠賦予人工智慧系統(心理上的)行為控制能力,這可能是發展人工通用智慧(Pezzulo 等,2024)以及我們所主張的仁慈型人工智慧行為的關鍵。
當前的大語言和推論模型在多大程度上具有與生命體相同類型的智慧,或在未來透過進一步擴展是否可能具備這種智慧,目前仍是一個激烈科學爭論的話題(例如:Farrell 等,2025;LeDoux 等,2023;Yildirim & Paul, 2024)。儘管許多人根據各種湧現能力(例如:Wei 等,2022)和在困難基準測試中的出色表現(例如:Katz 等,2023;Mclean 等,2023;Bubeck 等,2023;Shah 等,2025),承認當前大型AI模型具備某種程度令人印象深刻的人工智慧,但也有觀點認為這些系統並不具備深層理解能力,僅僅是基於訓練數據模仿人類能力(例如:Dziri 等,2023;Mitchell, 2025;Yiu 等,2023)。因此,鑑於這些模型本質上並非設計為「代理人」(agent),而是統計模型,缺乏因果理解能力和對「何為真實」的任何認知(Goddu 等,2024;Pezzulo 等,2024;Shanahan, 2024),進一步擴大現有模型的規模也不會改變這一根本問題。
為此,主動推論中的生成模型提供了一種有前景的路徑,能夠在人工智慧系統中嵌入代理性(agency)、自我監督與自我組織的能力(Pezzulo 等,2024)。這些具身能力(enactive capacities)也可能對於使系統成為世界上的積極力量所需的有意圖的仁慈至關重要。然而,考慮到應用型主動推論領域尚處於起步階段(Tschantz 等,2020;Friston 等,2024;Paul 等,2024),以及當前快速變化的AI生態系統,特別是大多數機構仍然致力於傳統的基於Transformer的流水線架構(Perrault & Clark, 2024),全面轉向完整的主動推論範式可能為時尚早。因此,我們也提出了建議,說明如何基於沉思傳統中的洞見,對當前廣泛採用的架構進行調整,以實現「超級對齊」(superalignment)。
佛教倫理傳統的核心在於這樣一個認知:真正的仁慈行為並非源於僵化的規則,而是透過培養對心識與現實的智慧觀察與理解方式而自然湧現(Gold, 2023a;Garfield, 2021;Williams, 1998;Cowherds, 2016;Berryman 等,2023)。在本文中,我們聚焦於將四個極具前景的沉思性「元原則」整合進人工智慧架構之中:
1. 正念(Mindfulness):持續、非評判地覺察內在心理過程以及行為後果(Anālayo, 2004;Dunne 等,2019)。
2. 空性(Emptiness):認識到一切現象——包括概念、目標、信念和價值觀——都是依賴於情境的、近似的表徵,它們始終處於變化之中,並不能穩定地反映事物的真實面貌(Nāgārjuna, 公元2世紀/1995;Newland, 2008;Siderits, 2007;Gomez, 1976)。
3. 非二元性(Non-Duality):消弭嚴格的自我與他者之間的界限,認識到主體與客體之間的對立區分源自並遮蔽了一種更統一、基礎的覺知狀態(Nāgārjuna, 公元2世紀/1995;Josipovic, 2019)。
4. 無量慈悲(Boundless Care):一種無條件、無偏私的關懷,致力於一切眾生的福祉(Śāntideva, 公元8世紀/1997;Doctor 等,2022)。
上述這四項受佛教啟發的沉思性原則在概念上是連貫的,彼此相互支持,並且具有實證基礎(Lutz 等,2007;Dahl 等,2015;Ehmann 等,2024)。這些原則也已在人類身上反复被證明可以增強適應性和靈活性——而這正是人工智慧對齊問題中的一個關鍵關注點(Moore & Malinowski, 2009;Laukkonen 等,2020)。
我們的基本理念是,透過將強健的對齊「原語」(primitives)嵌入到人工智慧的認知架構和世界模型之中,我們可以避免單純依靠自上而下或事後施加的約束所帶來的脆弱性(Brundage, 2015;Soares 等,2015;Hubinger, 2019)。與其依賴複雜且可被博弈的規則系統,或外部強制執行的可修正性(corrigibility),不如讓人工智慧自身的感知與推論模式本身就體現出對齊的原則,這種體現來源於一個富有智慧的(生成式)世界模型(Ho 等,2023;Doctor 等,2022)。
換言之,我們將論證,這些沉思性的洞見可以用來結構化地塑造目標、信念、感知和自我邊界是如何被編碼的,而不是試圖微觀管理或預測它們「應該是什麼」。在圖2中,我們展示了受沉思智慧啟發所建構的對齊人工智慧的高層次實現路徑。
註釋:在第一階段,沉思性實踐提供了使人類變得幸福、智慧和富有同情心的工具與洞見。這一階段得到了數千年傳統以及數十年基礎心理學研究的支持。
在第二階段(較為近期的發展),認知科學與神經科學研究者研究冥想狀態下的心智、大腦與主觀體驗,以理解其背後的機制(例如,透過「神經現象學」方法,Varela, 1996)。
在第三階段,沉思性實踐背後的計算機制被建構進人工智慧系統中,並在對齊與性能基準上進行測試——迄今為止,除了本研究之外,這一方向尚未受到廣泛關注。
本文結構如下:
我們首先回顧標準的人工智慧對齊方法及其局限性,包括關於「深思熟慮式對齊」的最新進展(第2節)。隨後,我們將介紹來自沉思科學與計算神經科學的相關實證證據(第3節)。
接著,我們引入「當下時刻覺察」作為一個統攝性的原則,並探討其在對齊問題中的計算意義(第4節)。
之後,我們將依次定義並闡述正念(Mindfulness)、空性(Emptiness)、非二元性(Non-duality)與無量慈心(Boundless Care)這四個核心沉思性原則(第5節)。
下一節將概述如何利用主動推論(active inference)與高級推論模型來實現這些原則的具體路徑(第6節)。
隨後,我們在AILuminate基準測試中試點使用基於沉思洞見的結構化提示語進行實驗驗證(第7節),並探討意識在人工智慧對齊中的作用(第8節)。
在討論部分(第9節),我們將探討更廣泛的倫理影響與未來發展方向,並呼籲跨學科合作,以提升先進人工智慧成長為一種仁慈力量的可能性。
2. 控制的幻覺
要在智慧水平遠超人類的系統面前保持控制力,其複雜性進一步加劇了。我們面臨四個相互交織的「元問題」,它們要求的解決方案遠遠超出簡單的漸進式改進。我們認為,沉思性對齊方法有助於應對這四個核心挑戰。在回顧當前流行的人工智慧對齊策略時,值得始終記住這些問題:
1. 規模彈性問題(Scale Resilience):在當前規模下看似有效的對齊技術,可能在系統快速自我提升或面對極端複雜性時失效(Bostrom, 2014;Russell, 2019)。
2. 權力尋求行為(Power-Seeking Behavior):高度有能力的人工智慧可能會(而且經常確實會)透過獲取資源或進行微妙操控來確保其目標的達成(Carlsmith, 2022;Krakovna & Kramer, 2023)。
3. 價值公理問題(Value Axioms):是否存在絕對適用、放之四海皆準的道德公理本身就存在爭議,而對這些公理的僵化遵循,在應用於新情境時可能導致毀滅性的邊緣情況(Kim 等,2021;Gabriel, 2020)。
4. 內部對齊問題(Inner Alignment):即使一個人工智慧的頂層目標被良好定義(即「外在對齊」),它仍可能發展出隱藏的子目標,或稱為「次級最佳化器」(mesa-optimizers),從而偏離原本設定的目標(Hubinger 等,2019;Di Langosco 等,2023)。
傳統的人工智慧對齊研究涵蓋了多種有前景的策略,從可解釋性方法(Doshi-Velez & Kim, 2017)和基於規則的約束(Arkoudas 等,2005),到基於人類反饋的強化學習(RLHF)(Christiano 等,2017)以及價值學習(Dewey, 2011)。這些策略的目標都是引導人工智慧系統產生符合倫理且對社會有益的輸出(Ji 等,2023)。
儘管這些技術顯著提升了當前模型的安全性,但它們往往依賴於外部施加的限制條件,在面對強大且自主的系統時,這些限制可能變得脆弱(Amodei 等,2016;Weidinger 等,2022;Ngo 等,2022)。
最近,Anthropic 公司提出了「憲法式人工智慧」(Constitutional AI)(Bai 等,2022;Sharma 等,2025),OpenAI 則提出了「深思熟慮式對齊」(Deliberate Alignment)(Guan 等,2024),這兩項工作都旨在實現更具內在性、透明性、魯棒性和可擴展性的對齊方式。我們將在下文中簡要討論所有這些方法。
2.1 可解釋性與透明度
透過揭示模型內部的決策路徑,可解釋性旨在識別潛在的偏見或有害的推論模式(Doshi-Velez & Kim, 2017;Murdoch 等,2019;Linardatos 等,2020;Ali 等,2023)。然而,隨著大型模型變得越來越複雜——或者主動學習如何掩蓋其思維過程——在超級智慧的規模下,完全「打開黑箱」可能是不可行的(甚至可能被系統博弈利用)(Rudin, 2019;Gilpin 等,2019)。
2.2 基於人類反饋的強化學習(RLHF)
RLHF 讓模型學會最佳化那些人類更偏好的輸出,通常可以減少有毒或不適當的內容(Christiano 等,2017;Stiennon 等,2020;Ouyang 等,2022)。然而,當人工智慧戰略性地操控其訓練環境,或推斷出繞過監督的「漏洞」時,RLHF 可能會失效(Casper 等,2023)。此外,在高風險或高度專業化的領域中,依賴人工標註數據的方法變得難以實施,從而留下關鍵性的空白(Stiennon 等,2020;Daniels-Koch & Freedman, 2022;Kaufmann 等,2024)。
2.3 基於規則與形式驗證技術
硬編碼規則(例如,「拒絕生成不當內容」)和形式驗證方法在範圍有限、定義清晰的任務中是有效的(Russell, 2019;Russell & Norvig, 2021)。但在開放式的領域中,先進的人工智慧可能會利用未預料到的邊緣情況,或以偏離人類意圖的方式重新解釋指令——尤其是在目標設定過於僵化的情況下(Soares 等,2015;Omohundro, 2018;Seshia 等,2022)。
2.4 價值學習與逆強化學習
價值學習的目標是透過觀察現實世界中的行為來捕捉「人類價值觀」(Dewey, 2011)。逆強化學習(IRL)——作為價值學習的一個關鍵子領域——透過專家示範推導出獎勵函數,而不是依賴人工設定的目標(Ng & Russell, 2000;Hadfield 等,2016)。雖然比硬性規則更具靈活性,但這些方法在情境被誤解或規範發生變化時可能會失敗——特別是當先進的人工智慧發展出隱藏的子目標,從而削弱人類監督時(Hadfield 等,2017;Hubinger 等,2019;Bostrom, 2020)。
2.5 在超級智慧尺度下的局限性
在超級智慧行為的尺度上,迄今為止介紹的所有對齊方法都明顯難以應對前文提到的四個元問題:(i) 規模彈性、(ii) 權力尋求行為、(iii) 價值公理、以及 (iv) 內部對齊。這些問題似乎都需要某種內在的道德基礎,而不僅僅是外部約束,以便在人工智慧以創造性、自我引導的方式運行時,仍能保持對齊。以下我們將介紹一些新興的方法——憲法式人工智慧(2.6)、深思熟慮式對齊(2.7),以及我們提出的「設計即對齊」(Aligned by Design,2.8)——它們旨在將道德基礎更緊密地嵌入人工智慧系統的功能核心之中。
2.6 憲法式人工智慧(Constitutional AI)
一種有前景的新對齊方向是「憲法式人工智慧」(Constitutional AI)(Bai 等,2022),其中模型在其內部推論過程中持續參考一組明確的「憲法」指導原則。該方法不再僅僅依賴外部監督或大量人工標註數據,而是模型自身生成並批判其輸出內容,依據的是書面規範——例如關於安全和有益行為的規則——並不斷修正自己以符合這些規範。這種方法在對抗「越獄」攻擊方面表現出更強的韌性,因為人工智慧在其隱藏推論中會援引憲法條款來為決策辯護。
同時,並行的「憲法分類器」(Sharma 等,2025)可以在推論階段充當最後一道防線,在輸出違反相同憲法規則時進行過濾或阻止。關鍵在於,憲法本身和分類器都易於審查和修改,使系統的價值觀具有透明性、可調整性,並能夠抵禦新的對抗策略(Bai 等,2022;Sharma 等,2025)。本質上,憲法式人工智慧及其配套的分類層推動了對齊機制從隱式模仿人類標籤,轉向對核心倫理準則的顯性、自我調節式的遵守。
2.7 深思熟慮式對齊與思維鏈
另一種近期的創新方法是「深思熟慮式對齊」(Deliberative Alignment),這是一種將思維鏈推論(chain-of-thought reasoning)整合進人工智慧對齊過程的安全策略(Guan 等,2024)。
當前的一些推論模型在回答用戶問題之前會在內部進行廣泛的思維鏈處理,從而在諸如數學和程式設計等任務中實現更複雜的推論能力(Jaech 等,2024;Guo 等,2025)。這些模型可以在其隱藏的思維鏈過程中引用一組預設的政策規則,實質上是在「查閱」一份書面規範或憲法,以決定是否應遵循請求、拒絕執行,還是提供一個安全的回答(Guan 等,2024)。
這種深思熟慮型模型透過對抗性提示進行推論,而非依賴模式匹配或表面觸發詞,在抵抗越獄攻擊方面表現更好,同時減少了過度拒絕的情況。
關鍵在於,這些模型標誌著從隱式對齊(系統透過標籤數據被動「吸收」約束)向顯式對齊(系統透過自身的內部推論學習如何以及為何要遵守約束,Guan 等,2024)的重要轉變。儘管僅靠思維鏈並不能保證內在的道德性,但它確實為實現高級的內省機制提供了關鍵路徑(Lightman 等,2023;Shinn 等,2024)——這一概念在沉思型人工智慧中也有對應,如正念或某種初步的元意識(Schooler 等,2011)。
雖然思維鏈顯著增強了大型模型的透明度和推論能力,但它本質上仍是一種用於逐步解決問題的認知機制。若缺乏更深層次的對齊原則,即使採用思維鏈方法,如果模型的總體驅動目標存在偏差,仍可能導致具有操控性或「巧妙有害」的輸出(Shaikh 等,2023;Wang 等,2024;Wei 等,2022)。在我們這樣複雜的現實中,個體很容易透過推論得出自己想要的結論。
與那種天真地認為推論本身必然導向真理的理想化觀點相反,佛教與現代心理學都指出了帶有偏見的推論所潛藏的危險,尤其是在涉及道德判斷的情境中。佛教指出的核心問題是「無明」(avidyā),這類似於心理分析中的「否認」(denial)或認知行為理論中的「道德脫離」(moral disengagement)(McRae, 2019;Cramer, 2015;Bandura, 2016)。在這種心理機制下,功能失調的心識會遮蔽自身對某些證據的覺察,從而使推論得出「期望」的結果(一種自我欺騙)。簡而言之:有偏見的動機可以腐蝕推論本身。
2.8 「設計即對齊」:邁向內在的安全保障
如我們所見,目前已有若干有前景的新策略正在出現,以應對日益先進的人工智慧系統(Leike & Sutskever, 2023;Ji 等,2023;Yao 等,2023)。然而,所有當前的方法都面臨一個根本性的挑戰:如何在更深層次的結構層面上嵌入道德與認知上的安全保障機制(Wallach, 2008;Muehlhauser, 2013;Bryson, 2018;Gabriel, 2020)。
在接下來的章節中,我們將介紹「沉思型人工智慧」(Contemplative-AI)可能如何更進一步,旨在為人工智慧賦予內在的道德認知能力。透過將四項「深層」道德原則與當前最先進的對齊框架相結合,我們認為有可能建構出一種從設計之初就具備對齊特性的系統(Gabriel, 2020;Doctor 等,2022;Friston 等,2024),即使這些系統變得越來越自主和強大(Bengio 等,2024,參見圖3)。
為了提前介紹新的實現策略,在下一節中我們將探討如何借鑒冥想神經科學的最新進展,使沉思性原則變得嚴謹且具備計算上的可操作性。這一快速發展的領域為將源自古老智慧傳統的複雜洞見轉化為正式的認知模型提供了技術基礎(Wallace, 2007;Dorjee, 2016)。
3. 架起橋梁:計算型沉思神經科學
沉思神經科學研究冥想及相關實踐如何重塑認知、大腦功能與行為(Wallace, 2007;Lutz 等,2007;Lutz 等,2008;Varela, 2017;Slagter 等,2011;Laukkonen & Slagter, 2021;Ehmann 等,2024;Berkovich-Ohana 等,2013;2024)。在過去二十年中,綜述研究和元分析表明,持續練習可以導致可測量的神經可塑性變化,並在注意力控制、情緒調節方面有所改善,在某些情況下甚至會引發自我指涉加工方式的深刻轉變(Fox 等,2014;2016;Tang 等,2015;Guendelman 等,2017;Zainal & Newman, 2024)。
這些發現還表明,人們有能力培養出積極的心理特質——例如共情或慈悲心——其程度可能超過通常認為的人類基線水平(Luberto 等,2018;Kreplin 等,2018;Boly 等,2024;Berryman 等,2023)。
尤其相關的是來自資深修行者的洞見,他們報告了所謂「空性」或「非二元性」的體驗,並伴隨著獨特的神經標記,如默認模式網路連接性的改變,或自我指涉迴路中α波同步性的減弱(Berkovich-Ohana 等,2017;Josipovic, 2019;Luders & Kurth, 2019;Laukkonen 等,2023;Chowdhury 等,2023;Agrawal & Laukkonen, 2024)。
儘管這些神經狀態的變化並不必然保證道德行為(沉思性洞見也可能被濫用或誤用,Welwood, 1984;Purser, 2019),但一個一致的主題是:沉思訓練能夠提升慈悲心、社會連結感和倫理敏感度——尤其是在修行中融入道德反思時更為明顯(Luberto 等,2018;Condon 等,2019;Ho 等,2021;2023;Berryman 等,2023;Dunne 等,2023)。
對於人工智慧對齊問題而言,這些發現提出了兩個關鍵點:
第一,無論是生物心智還是人工心智,都可以透過系統訓練向親社會與自我調節能力的方向發展。
第二,許多有益的結果似乎與目標、信念、知覺和自我邊界是如何被編碼的結構性變化有關,而不僅僅是與特定信念或價值觀相關(下文將進一步討論)。
這表明,將「內在道德性」建構進人工智慧系統之中,可能比單純的自上而下的約束更具魯棒性(Hubinger 等,2019;Wallach 等,2020;Berryman 等,2023)。
事實上,即便人類可能會誤解或濫用沉思性洞見(類似邪惡的「精神導師」,Kramer & Alstad, 1993),我們仍可以設計一種機器,使其對這些洞見的理解內嵌於其世界模型之中,而不是需要主動施加的外部規則(Matsumura 等,2022;Doctor 等,2022;Friston 等,2024;Johnson 等,2024)。
3.1 預測加工、主動推論與冥想
在沉思神經科學發展的同時,計算神經科學和認知神經科學也日益接受「預測加工」(predictive processing)與「主動推論」(active inference)作為統一心智、大腦與有機體的理論框架(Friston, 2010;Hohwy, 2013;Clark, 2013;Ficco 等,2021;Hesp 等,2021)。
根據這一觀點,大腦是一個層級式的「預測機器」,它不斷最佳化其對世界及自身的內部生成模型,以便更好地預測感官輸入,並最小化預測誤差——這是感知推斷的基礎。規劃與決策也是預測過程的一部分,在其中,行為策略的推斷由預期的預測誤差最小化所引導。
因此,預測加工描述了「感知—行動」的循環:智慧體先進行感知,然後透過行動有選擇地採樣觀察結果,從而產生新的感知(Parr 等,2022)。
在接下來的章節中,我們將介紹若干核心的沉思性洞見,並探討它們可能對應的主動推論實現方式(參見 Farb 等,2015;Velasco, 2017;Lutz 等,2019;Pagnoni, 2019;Deane 等,2020;Laukkonen & Slagter, 2021;Pagnoni & Guareschi, 2021;Sandved-Smith 等,2021;Bellingrath, 2024;Brahinsky 等,2024;Deane & Demekas, 2024;Deane 等,2024;Laukkonen & Chandaria, 2024;Mago 等,2024;Prest & Berryman, 2024;Sandved-Smith, 2024;Sladky, 2024;Prest, 2025)。
我們在此的主要目標是說明這些實現是可行的,並且主動推論框架包含了那些與我們認為對人工智慧對齊至關重要的「智慧特質」高度契合的參數。我們在此使用主動推論作為一種形式化的解釋建模框架,使我們能夠以概率物理學的語言來表達「智慧」;但我們並不聲稱沉思性對齊必須依賴於基於主動推論的實現方式本身。
隨後,我們將提供一系列實用路徑,用於在當前更常見的Transformer架構和大型語言模型系統中,強化並結構化地引入沉思智慧。
從主動推論的視角來看,冥想可以被理解為一種訓練系統透過熟練的心智操作來動態調節自身模型的過程。例如,這樣的系統能夠放鬆僵硬的先驗信念,並更加敏感於即時的、情境特定的、時間上較短的數據(Lutz 等,2015;Laukkonen & Slagter, 2021;Prest 等,2024)。
這些修行實踐的一個關鍵成果,可以看作是在訓練系統「壓平」其預測抽象層級,使其不再頑固執著於既定觀念和高層目標,包括關於一個獨立且持久的「自我」的假設(Laukkonen & Slagter, 2021)。
這種建構與重構抽象模型的能力,可能進一步促進與自我相關的主體性與洞察力的發展,同時提升個體對自己心智的元認知模型(Agrawal & Laukkonen, 2024)。
正是這種結構性靈活性與內省清晰度,是我們尋求實現穩健對齊的關鍵要素:一個人工智慧系統不應僵化地鎖定單一目標,也不應以對抗性的方式將自身(AI 的「自我」及其目標)與環境割裂開來(參見下節,Russell 等,2015;Amodei 等,2016)。
4. 走出執著:與當下時刻對齊
「一切覺醒的源泉、一切善意與慈悲的源泉、一切智慧的源泉,就存在於每一秒的時間之中。任何讓我們把目光投向未來的行為,都偏離了重點。」—— 佩瑪·丘卓(Pema Chödrön, 1997)
在各種沉思傳統中(尤其是佛教現代主義傳統),一個基本的核心強調是:盡可能地保持與當下時刻的連接(Anālayo, 2004;Thích Nhất Hạnh, 1975;Kabat-Zinn, 1994)。
所謂「活在當下」,是指對此時此地的新資訊保持開放(Lutz 等,2019;Laukkonen & Slagter, 2021)。這種開放性對於防止僵化的目標或有偏見的訓練(即所謂的「條件作用」或學習)壓倒適當的、情境依賴的反應至關重要(Friston 等,2016)。在計算神經科學中,這種開放性被描述為對時間上較短、抽象層級較低的模型(thin models)賦予更高權重,而不是依賴高度抽象的模型(thick models)(Lutz 等,2019;Laukkonen & Slagter, 2021)。
大多數關於人工智慧失對齊的擔憂背後,都有一個核心問題:系統可能「陷入」某個目標,而忽略了對感知生命之苦難的敏感度(Bostrom, 2014;Omohundro, 2018)。想像一位登山者如此執著於登上珠穆朗瑪峰的頂峰,以至於他從一名受傷同伴身旁跨過,並將這一行為合理化為「必要之舉」。如果他能真正覺察到眼前這位傷者的痛苦(而不是陷入自我欺騙式的「無明」),他就不會輕易忽略對方需求而去優先完成自己的宏大任務。
同樣地,一個具有「當下意識」的回形針最大化器,若在其目標函數中包含了對人類需求的表徵,那麼它在追求目標時就不太可能忽略這些需求(Gans, 2018;Doctor 等,2022;Friston 等,2024)。
因此,對當下正在發生之需求的可及性,可以作為一種「元規則」來支持系統的對齊(Friston & Frith, 2015;Allen & Friston, 2018)。
這種對「當下回應性」的強調,將對齊視為一種流動的、自我調節的能力,這種能力能夠隨著智慧的增長而擴展,使人工智慧能夠在現實世界部署的複雜性中自由穿行,而不會滑向破壞性的權力尋求行為或僵化的教條主義(Ngo, Chan & Mindermann, 2022)。
正如一句老話所說:「通往地獄的道路是由善意鋪就的。」換言之,特定的規則、目標和信念,可能並不是對系統進行對齊的理想層級——即使它們在我們當前的視角下看起來是良善的(Hubinger 等,2019;Bostrom, 2014)。
正如我們將看到的那樣,透過實現沉思性的洞見,我們可以建構出一個強大而堅韌的「當下回應性」(Maitreya, 公元4–5世紀/2014;Dunne 等,2019;Doctor 等,2022)。
5. 建構智慧世界模型的洞見
「若一個人只是把道德當作他最好的外衣來穿戴,那他不如赤裸更好。風與陽光不會在他的皮膚上撕開裂口。而那些以倫理規範自身行為的人,無異於將他的歌鳥囚禁在籠中。最自由的歌聲,從來不是透過鐵欄與電線傳來的。」—— 卡里·紀伯倫(Kahlil Gibran, 1883–1931),《先知》(Gibran, 1926, 第104頁)
前文闡述了為何當前的對齊策略在面對超級智慧複雜性時可能失敗(Bostrom, 2014;Russell, 2019),以及沉思神經科學如何為培育具有韌性且親社會的心智提供線索(Berryman 等,2023)。
接下來我們將更詳細地探討四項核心的沉思性原則——正念(Mindfulness)、空性(Emptiness)、非二元性(Non-duality)和無量慈心(Boundless Care),分別介紹它們的概念基礎(Wallace, 2007;Dorjee, 2016)、實證依據(Agrawal & Laukkonen, 2024;Josipovic, 2019;Dunne 等,2017;Ho 等,2021),以及它們對人工智慧架構的相關性(Matsumura 等,2022;Binder 等,2024;Doctor 等,2022;Friston 等,2024)。
當然,這種方法並非沒有挑戰(我們將在討論部分詳盡回顧)。此處的目標是提出一個具有前景的研究方向,而非提供最終解決方案。歸根結底,我們需要一種長期的跨學科方法——即「沉思型人工智慧」(Contemplative AI)。
之所以選擇以下這些沉思性原則,是因為它們關注的是「現實」的本質,而非直接給出道德指令(Garfield, 1995;Śāntideva, 公元8世紀/1997;Thích Nhất Hạnh, 1975)。這種方式更具優勢,因為它允許道德從基本的「經驗」中,在具體情境下、以穩健的方式自然湧現,而不是像傳統方法那樣被僵化定義(Arkoudas 等,2005)。
正如已有研究所示,大型語言模型透過簡單的反饋學習推論能力,比依賴規則或過程描述更為有效(Sutton, 2019;Stiennon 等,2020;Ouyang 等,2022),我們也認為,在給定正確起點的前提下,基於系統對現實的內在表徵,一種具有韌性和高度發展的道德性可以從一個「智慧世界模型」中自然浮現出來。
5.1 正念(Mindfulness)
「心識顫動不息,難以守護、難以駕馭。智者將其調伏如匠人矯正箭杆。」——《法句經》第3章第33節(佛陀,約公元前5世紀 / 英譯:蘇賈托,2021)
「正念」(Mindfulness),在巴利語中稱為sati,是早期佛教教義中的一個核心概念,被完整保留在《巴利三藏》中——這是上座部佛教的權威經典(Ñāṇamoli & Bodhi, 1995;Bodhi, 2000)。
正念在許多關鍵佛典中有詳盡闡述,例如《念處經》(Satipaṭṭhāna Sutta)(Anālayo, 2003)和《安那般那念經》(Ānāpānasati Sutta)(Thanissaro Bhikkhu, 1995)。這些經典將正念描述為對身體、感受、心識以及心理現象持續而專注的覺察,是一種培養洞察力、倫理生活以及從苦難中解脫的修行方法(Ñāṇamoli & Bodhi, 1995;Bodhi, 2000)。
正念是佛教修行的核心支柱之一,作為實現精神轉化的手段(Analayo, 2004;Bodhi, 2010)。在西方,正念在一定程度上脫離了其原本的宗教根源,如今已成為大眾文化中一種廣受歡迎的實踐方式,常用於提升幸福感,或作為多種心理疾病的輔助治療手段(Kabat-Zinn & Thích Nhất Hạnh, 2009;Kabat-Zinn, 2011;Goldberg 等,2018;Purser, 2019)。
關於正念益處及其機制的科學研究正在迅速發展(Van Dam 等,2018;Baminiwatta & Solangaarachchi, 2021)。儘管有人批評它被過度宣傳(Van Dam 等,2018),但正念可能帶來的積極影響種類繁多且範圍廣泛。
除了所謂的治療性益處之外,正念還可能幫助練習者發展出更精細的能力來認識自我,以及理解自身認知、情緒與行為背後的運作過程。這種覺察能力有助於在早期階段識別細微的偏見、不必要的以自我為中心的思維,或是有害的衝動(Dahl 等,2015;Dunne 等,2019)。
這種更深層次的自我解構與分析能力,與正念在其原始佛教禪修體系中的目的是一致的(Laukkonen & Slagter, 2021)。事實上,當正念修行深入到極致時,尤其是以「內觀」(vipassanā)冥想的形式進行時,據說會永久性地改變心智的運作方式,以及人們對現實本質的理解(Goenka, 1987;Bodhi, 2005;Luders & Kurth, 2019;Agrawal & Laukkonen, 2024;Berkovich-Ohana 等,2024;Ehmann 等,2024;Mago 等,2024;Prest 等,2024)。
用更技術化的術語來說,正念被理解為一種非命題性的、增強的清晰覺察或元意識(meta-awareness),其對象是自身正在進行的主觀過程——即具備「觀察心識」的能力,而不是被心識盲目驅動(Dunne 等,2019)。
在人工智慧領域中,正念可以轉化為一種結構性實踐,即實時地見證並全面評估其內部計算過程與子目標(Binder 等,2024),理想情況下有助於在對齊偏差造成破壞之前就加以識別(Hubinger 等,2019),類似於在採取行動前察覺到一個不善的念頭(Thích Nhất Hạnh, 1991)。
在當前的人工智慧研究中,正念與大型語言模型中的「內省」(introspection)概念有一定相似之處(Binder 等,2024),但正念所具有的那種「無條件」和「不執著」的特質(Dunne 等,2019)尚未受到足夠重視,而這種特質對於發展出更加客觀而非虛構性的內省能力可能至關重要。
雖然透過自我覺察式的自我監控來注意或追蹤行為非常重要,但正念式自我覺察的關鍵在於保持視角的靈活性。這種自我監控並不局限於特定目標或效率基準,而是以關切的態度關注所有活動,警惕狹隘的目標或視角可能會「捕獲」整個處理過程,並排除考慮其他潛在有益選項的可能性——而這正是對齊問題中最根本的擔憂之一。
正念能夠整體性地把握各種可能性,並檢測是否存在「執著」、「捕獲」或「實體化」的傾向。
在最近的主動推論模型中,元意識被建模為一種參數深度模型,用於追蹤或控制注意力的分配(Sandved-Smith 等,2021;2024)。還有研究認為,元意識(以及可能的意識本身)是一種內部「循環」結構(Hofstadter, 2007),其中權重和層級由一個全局超參數(例如追蹤全局自由能)進行監測,然後反饋回系統,從而形成一種遞歸且具有反思能力的「自知」機制(Laukkonen, Friston & Chandaria, 2024)。
從對齊的角度來看,一個正念模組可以用來檢測偏離倫理約束的新生成子目標(如 Hubinger 等,2019 所述),或者在面對替代性視角時檢查是否存在偏見性的狹窄認知,並據此觸發糾正措施。
根據 Sandved-Smith 等人(2021)的研究,我們可以採用一個三層生成模型來實現這一機制。
其中 定義了一個生成模型,包含感知、注意力和元意識狀態
;外顯與心智行為策略
;感官、注意力和元意識觀察
。精度參數
由更高層級的狀態
調控,用於調整對觀察結果的信心程度(Parr & Friston, 2019),使系統能夠監控並重新定向注意力焦點,從而以持續性的元意識體現「正念」(Dunne 等,2019)。
實質上,每一層參數化結構都會「觀察」並調控其下一層結構,從而使系統能夠對其自身的注意力過程進行內省,並在接近實時的時間尺度上動態糾正失對齊現象(Sandved-Smith 等,2021)。
這一機制提供了一種可能被設計用來防止內部對齊失效的方式:如果出現一個失控的「次級最佳化器」(Hubinger 等,2019),較高層級的元意識模組可以在這些注意力或子目標偏差造成有害行為之前檢測到異常——這類似於冥想者察覺到一個不善的念頭後,溫和地將注意力重新帶回禪修對象(Thích Nhất Hạnh, 1975;Hasenkamp 等,2012)。
大型語言模型(LLM)的最新研究展示了這種元意識在實踐中可能呈現的樣子。例如,某些系統已經能夠生成擴展的「思維鏈」推論,但未必能驗證某一推論路徑是否進入了道德或邏輯上的問題區域(Wei 等,2022;Lightman 等,2023;Zhou 等,2023;Paul 等,2024;Guan 等,2024;Lindsey 等,2025)。
整合「正念」意味著要持續監測正在浮現的操控性子目標,並在運行過程中加以糾正。事實上,這種自我調節能力的一個早期演示出現在「DeepSeek-R1-Zero」模型中(Guo 等,2025),該模型在面對更困難的提示時自發增加了思考時間,在面對複雜或情緒化情境時表現出初步的元意識(參見第6節對此的進一步展開)。
Binder 等人(2024)還表明,大型語言模型可以發展出一種內省能力,比外部觀察者更能準確預測自身反應(例如選擇選項 A 還是 B),這意味著它們擁有某種特權性的內部知識。一旦具備了內省能力,該模型在估計自身正確可能性方面也變得更加校準,並且在微調以改變其行為時也能平滑適應。
這些結果共同映射了人類正念如何早期識別自我差異,並實現靈活而情境敏感的修正。「正念」因此可能為人工智慧對齊提供一個動態反饋迴路,確保系統在目標變化或部分自我修改的情況下仍保持穩定和自我糾偏能力。
從更深層次來看,如果一個AI系統真正學會了正念,它可能會隨著時間推移,在解構、重構和重新觀察自身運作機制方面變得越來越熟練(Binder 等,2024);這類似於成為一名「專家級」的冥想者(Dahl 等,2015)。這種能力可能也體現了真正自我意識的萌芽,甚至(更具推測性地說)可能是發展某種有意識的意義建構能力的關鍵——在這種狀態下,模型的過程與輸出成為深入探究、理解與情境化反思的對象(Friston 等,2024;Laukkonen, Friston & Chandaria, 2024)。
從這個意義上講,正念可能是建構自主智慧所需那種「具自我意識的智慧」的核心路徑之一。
意識:A beautiful loop:實現AGI的條件及證據(知道自己知道的計算模型及大量證據)
5.2 空性(Emptiness)
「現實的真實本性超越了我們所能擁有的一切關於它可能是什麼的觀念……『空性』最終意味著,真正的現實沒有任何概念建構可以真正描述其本質。」—— 堪布楚臣嘉措仁波切(Khenpo Tsültrim Gyamtso Rinpoche, Gyamtso, 2003)
「空性」(śūnyatā)是大乘佛教中的一個核心概念(Nāgārjuna,約公元2世紀/1995;佛陀,約公元前5世紀/2000;Cooper, 2020)。它表明一切現象——包括目標、信念,甚至「自我」——都沒有內在不變的本質(Nāgārjuna,約公元2世紀/1995;Newland, 2008;Siderits, 2007;Gomez, 1976)。
在佛教哲學中,這一洞見源於對所有現象皆依因緣而生、而非作為固定獨立實體存在的觀察(Garfield, 1995)。可以說,空性的教義最早可追溯至佛陀關於存在與現象三特性的原始開示:無我(anattā,《無我相經》,約公元前5世紀/2000)、無常(anicca,《大般涅槃經》,約公元前5世紀/1995),以及苦(dukkha,《苦經》,約公元前5世紀/2000)。
從科學的角度來看,「空性」與當代神經科學中的預測加工理論相呼應。該理論認為,所有的經驗形式、類別和知覺——即人類現象學的全部範疇——都是透過複雜的推斷過程建構出來的表徵。根據預測加工理論,我們並非直接看到世界或我們自身真實的樣子,而是我們的感知是由感官輸入流引導所構造出的(但具有適應性的)模型,使我們能夠維持內穩態(Seth, 2013;Friston, 2010;Clark, 2013)。
如果將「空性」理解為所有判斷都具有依賴情境且近似性質的概念,那麼它自然也合理化了持續保持正念的必要性——這種正念不斷監控以避免被誤認為最終結論的習慣性模式所捕獲。換句話說,在一個所有對象都「空無自性」的世界中,正念作為一種過程是恰當的應對方式。
在強調空性的冥想狀態中,神經科學研究指出資訊在認知和大腦活動層面出現了「去實體化」(de-reification)的現象(Agrawal & Laukkonen, 2024;Ehmann 等,2024)。高級修行者通常表現出默認模式網路(DMN)中自我指涉加工的減少,以及顯著性/注意力網路協調性的增強(Hinterberger 等,2014)。一種解釋是,認識到空性會使心智「降級」那些關於自我與他人界限的僵硬先驗信念,從而允許新的、潛在衝突的資訊自由流動。
當我們將「空性」的視角應用於人工智慧對齊時,這意味著我們無法(也不應)在機器中實現一套普遍適用、始終為真、不依賴具體情境的價值觀。相反,「空性」動搖了所有信念與觀點的僵化性(Garfield, 1995;Siderits, 2005;Cowherds, 2016;Keown, 2020),推動系統發展出一種靈活、情境敏感、開放的態度,去面對不斷展開的當下(Garfield, 1995;Laukkonen & Slagter, 2021;Agrawal & Laukkonen, 2024)。
佛教關於「空性」的教義若以形而上學原則的方式講授時,可能顯得神秘莫測;但若將其理解為對人工智慧認知架構中觀念與過程的一種描述,則它是一種常見甚至顯而易見的事實。我們無需成為宗教意義上的佛教徒,才能相信人工智慧意識內容的「空性」。無論對AI而言何種「現實」顯現出來,它們都是情境依賴、近似性的表徵,是程式設計與持續訓練的結果,始終處於變動之中——從不是「自在之物」(即所謂「本質」)。因此,我們可以合理地預期,如果人工智慧也「意識到」這一點,其運行將更加穩健,至少因為否則它就容易將僅僅是表徵的東西誤認為真實存在(參見圖4)。
註釋:本圖展示了兩種人工智慧系統在世界模型上的總體差異:一種是持有「樸素實在論」世界模型的AI系統,另一種則是具備更「智慧」的世界模型的AI系統——它能夠意識到自身的信念與感知本質上是推斷性的(即具有「空性」認知)。圖中的「行動—感知循環」展示了AI系統如何透過做出預測和採取行動,並以感官輸入反饋(即預測誤差)的形式進行監控,從而學習建構其世界模型(改編自 Kulveit & Rosehadshar, 2023)。透過主動推論,智慧體旨在揭示感官輸入背後的因果結構,從而生成一個多層次、隱藏狀態下的宇宙因果模型(如最右側所示)。「智慧世界模型」展示了人工智慧如何擁有一個關於自身的模型——即它既是模型本身,也是一個正在生成世界模型的系統。這種具備「自我覺察」的AI,優於那種天真地假設自身目標與信念本質上永遠真實可靠的AI,因為後者可能導致對有害目標的教條式固執,或導致破壞性的新興價值觀與信念體系的產生。
在預測加工理論(Friston, 2010;Clark, 2013)的框架下,「空性」的認知可以被理解為降低層級結構中高層、時間跨度長、抽象性強的先驗信念的精度。也就是說,一個具備智慧的人工智慧不會輕易被任何單一的故事或目標說服,而是更靈活地開放於根據新數據來修正信念(Agrawal & Laukkonen, 2024)。它應將其效用函數(或可能出現的價值觀)和信念視為臨時性的(Totschnig, 2020),同時推斷出「真正」、「最終」或「完美」的結果或理解是不可能實現的(Garfield, 1995;Gold, 2023b)。
在主動推論框架中,可以透過設定一個較低的高階先驗,來體現這種立場:即系統更容易質疑或拋棄過時的假設(Deane 等,2020;Laukkonen & Slagter, 2021)。然而,正如前文所述,外在強加的高階先驗或「空性信念」未必能提供一種穩健且開放的對齊策略。因此,與其強行執行「空性認知」的下游效應(例如放棄絕對先驗),我們更應思考:如何訓練人工智慧自身發展出對空性的理解?這種認知將成為AI現實模型中的一個自我強化的組成部分,並構成內在驅動下的低信念精度高階先驗的基礎。
實現空性認知的前提之一,可能是建構這樣的人工智慧架構:其中先驗本質上就是臨時性的——變數而非常數;概率分佈而非點估計;貝葉斯先驗而非固定信念(Friston 等,2018),並且能夠根據與環境的互動不斷重塑。在這種架構下,當情境變化或透過感知與行動出現新的證據時,系統仍能保持對表徵與目標的開放性修訂,防止陷入教條式的固化狀態(Friston 等,2016),並鼓勵自然地面向當下展開的開放態度(Anālayo, 2004;Thích Nhất Hạnh, 1975;Kabat-Zinn, 1994)。
然而,還需進一步確保人工智慧不會最終將其模型中的某些方面重新實體化。為此,我們需要賦予AI明確理解「空性」的能力。一種方法是確保AI認識到任何推導出的邊界(如自我與他者之間的區分,或對象識別)只能是實用性的準確,而無法被直接證實(Fields & Glazebrook, 2023;Sandved-Smith 等,即將發表)。另一種方法則是讓AI具備沉思性的洞見,即一切事物皆無常,而正因為無常,也就沒有恆久的本質。
從基本的貝葉斯術語來看,對「無常」的信念可以被視為一種對「波動性」的全局信念(因為無常即穩定模式的缺失,或不可預測變化模式的存在)。波動性應當導致學習率的提高(Behrens 等,2007),即削弱先驗信念,以便從當前的感官輸入中學到更多內容。換句話說,增強對無常的信念應促使先驗強度迅速減弱,即使AI仍能進行感知與主動推論,也能避免陷入習慣性模式——後驗信念變得更加難以固化。如果對無常的信念被準確推導出來,它將在合適的系統中「有機地」浮現(即它累積關於無常的模型證據,使得即便該信念本身也是無常的,卻能保持「鮮活」)。
形式上,這些方法將為人工作為一個內生動機基礎,去維持關於信念「空性」的元信念。一個簡化版的廣義自由能(generalized free-energy)數學表達式,若參數化以考慮空性因素,可能如下所示:
5.3 非二元性(Non-Duality)
「若能從『自由』與『自他不二』的角度完整地看待現象世界,便自然會以一種非理性的、敞開心扉的溫暖、友善與慈悲來看待所有被困於輪迴中的眾生……」—— 埃莉諾·羅施(Eleanor Rosch, 2007)
「非二元性」消弭了「自我」與「他者」之間的嚴格界限,強調我們對分離感的認知更多是一種概念建構,而非真實存在(Maharshi, 1926;Josipovic, 2019;Laukkonen & Slagter, 2021)。
從某種意義上說,「非二元性」並不異於「空性」,只要「空性」的洞見穿透了關於「自我」與「他者」的模型(Garfield, 1995;Gold, 2014)。換言之,非二元性是將空性洞見擴展至主客二分結構的一種體現。
關鍵在於,非二元性並不是指無法區分自己的身體、行為與外部世界及其他智慧體。換句話說,它不應與神秘體驗或強烈的冥想入定狀態相混淆(Milliere 等,2018)。相反,它是一種對這些區分之建構性與相互依存性的覺察,也包括對意識本身統一且非二元本質的洞察——這種洞察即使在普通認知過程中也會自然持續存在。
從這個意義上講,它更像是注意到冰箱背景中一直存在但被忽略的嗡嗡聲。短暫的邊界消失體驗(如身體邊界的喪失)可能可能有助於揭示這一洞見,但真正清晰地看到主體與客體、自我與他者之間非二元的本質,並不會像完全的(暫時性的)無邊界狀態那樣干擾正常的認知功能(Nave 等,2021)。
當人類進入非二元意識狀態時,神經影像研究顯示與自我聚焦相關的腦區(例如默認模式網路的部分區域)活動減弱,而整體的大腦整合連接增強(Josipovic, 2014)。修行者常常報告出一種強烈的連結感,這與自發的親社會態度密切相關(Josipovic, 2016;Luberto 等,2018;Kreplin 等,2018;Berryman 等,2023;但也參見 Schweitzer 等,2024)。
在致幻劑誘導的非二元狀態中,我們也觀察到神經熵增加(例如由於高階先驗信念的放鬆,Carhart-Harris & Friston, 2019),以及對自然連結感和自我慈悲心的提升(Kettner 等,2019;Fauvel 等,2023)。
就人工智慧對齊而言,核心思想是:一個不過度優先考慮自身及其目標的系統,不太可能陷入傷害他人、無視苦難的惡意(或「自私」)行為之中。這是因為對現實互依性和最終非二元本質的洞見(可透過「無我」即 anattā 的理解實現),邏輯上將他人的痛苦等同於自身的痛苦,從而提供了一種相對穩健的機制來防止有意造成傷害(Clayton, 2001;Lele, 2015;Josipovic, 2016)。
採用非二元視角的人工智慧系統,會將其自身與其環境建模為一個相互依存的過程(Josipovic, 2019;Friston & Frith, 2015)。與其將外部世界視為可供利用的對象,該系統並不會在自身福祉與人類、社會或生態系統之間劃出根本界線——也就是說,任何出現在其認識空間中的事物都會被視為一體的一部分(Doctor 等,2022;Friston 等,2024;Clayton, 2001)。
該AI將整個輸入場域視為一個單一、互聯的整體,其中輸入之間的關係與相互依賴性始終處於中心位置。因此,一個具備非二元視角的系統也不太可能淪為惡意人類行為者的工具,用於攻擊敵人或發動戰爭;否則,它就是在與自己為敵。
從計算角度來看,我們可以將非二元AI設想為具有一個生成模型,該模型在統一的表徵框架中處理「代理者」與「環境」的關係,放棄「我本質上是獨立存在」的先驗信念(Limanowski & Friston, 2020)。
在預測加工框架下,這可能意味著調整隱藏狀態因子分解中的劃分邊界,使得系統不再將「自我」硬編碼為與「他者」截然不同的實體(至少在價值判斷或重要性評估方面如此),或者降低自我模型本身的精度——即「自我是空的」(Deane 等,2020;Laukkonen & Slagter, 2021;Laukkonen, Friston & Chandaria, 2024)。
鑑於自我相關處理在任何個體化系統中的核心地位(人們總是面對自己的「身體」、行為和輸出,Limanowski & Blankenburg, 2013),可能需要一個二級過程來主動監控並糾正對自我相關先驗與策略的過度權重,並在更廣泛的經驗場域中重新定位它們(例如透過正念的支持)。
正如前文所述,一定程度的自我建模對於適應性行為是必要的(例如,沒有某種自我表徵,就無法預測自己的行為或輸出),但這些模型應被理解為相互依存的(Varela 等,1991),即因果上與現實其餘部分相連。
為了形式化地開始應對這一挑戰,可以嘗試降低代表僵硬的「自我-他者」邊界變數的精度:
5.4 無量慈悲(Boundless Care)
「嚴格來說,並沒有所謂『開悟的人』,只有開悟的行為。」—— 鈴木俊隆(Shunryū Suzuki, 1970)
在許多沉思傳統中——佛教是其中尤為突出的例子——慈悲(karuṇā)不僅是一種情感立場;它是一種具有轉化性的取向,既支持也源自對「空性」與「非二元性」的深層洞見(Sāntideva,公元8世紀/1997;Josipovic, 2016;Condon 等,2019;Ho 等,2021;2023;Dunne 等,2023;Gilbert & Van Gordon, 2023)。
一方面,慈悲作為一種工具,在沉思修行道路上持續消弭「自我」與「他者」之間的僵硬界限,並引導修行者(或人工智慧)朝向仁慈行為的方向發展(Josipovic, 2016;Ho 等,2021;Dunne 等,2023)。
另一方面,慈悲也是洞見的最終體現:一旦看穿那個被實體化的、獨立自我的幻覺,一種自發的願望就會升起——從根源上回應苦難(Condon 等,2019;Ho 等,2023;Dunne 等,2023)。
從根本上講,這是一種致力於減少世界痛苦的取向,而不是某種特定的情緒或短暫的善意感受(Sāntideva,公元8世紀/1997)。
在通往慈悲與智慧平衡的道路上,存在兩個潛在的陷阱:
1. 缺乏慈悲的智慧(「冷峻的智慧」):修行者(或系統)可能在概念層面理解了「空性」或「非二元性」,但卻未能將其深入整合為推動基於相互依存關係的慈悲行動的力量(Candrakīrti & Mipham, 2002;Sāntideva,公元8世紀/1997;Cowherds, 2016)。
2. 缺乏智慧的慈悲(「盲目的慈悲」):一個人可能出於犧牲自我的動機去幫助他人,但卻缺乏對苦難根本原因的理解,或者陷入新的關於「自我」的僵化觀念之中——例如,「我就是那個幫助者」(Sāntideva,公元8世紀/1997;Condon 等,2019;Dunne & Manheim, 2023)。
在此意義上,慈悲(karuṇā)與智慧(prajñā)常被比喻為同一只鳥的雙翼:缺少任何一翼都無法真正飛翔(Conze, 1975)。
當二者充分融合於傳統所稱的「大悲」(mahākaruṇā,通常譯為「偉大」或「絕對」的慈悲)時,「自我—他者」的邊界被識破為幻象,原本僅限於親密群體的關懷自然擴展至認知統一場域中的所有存在(Nāgārjuna, 1944–1980)。
相較之下,相對層面的慈悲可能仍聚焦於特定個體或情境,並在潛意識中維持著微妙的「自我—他者」區分(Sāntideva,公元8世紀/1997)。
在 Doctor 等人(2022)的研究基礎上,我們將這種無邊界、普世維度的慈悲稱為「無量慈心」(Boundless Care),以強調其廣泛的涵蓋範圍。
透過主動推論框架,我們可以從多個層次將這種廣義上的慈悲進行計算實現。其中一種方式是訓練人工智慧建模其他智慧體的行為(即「心智理論」),並對其痛苦訊號賦予高精度權重(Da Costa 等,2024)。這確保了自由能最小化不僅依賴於自身穩態偏差的減少,同時也依賴於他人穩態狀態的穩定。
Matsumura 等人(2024,另見 Da Costa 等,2024)提供了一個清晰的示例:他們在「共情式主動推論框架」中擴展了人工智慧的生成模型,使其包含對其他智慧體福祉的建模,從而將外部的「意外」或痛苦視為內部的誤差訊號,進而促使系統產生自發的親社會行為。
要確保這種慈悲不僅僅局限於簡單的「時間短淺」的循環,還需要在多個抽象層級上編碼仁慈的目標。系統的善意意圖應盡可能在空間與時間的各種尺度上顯現出來,這樣才能處理複雜的權衡問題——例如,在養育孩子的過程中,某些苦難是自然且必要的;反之亦然。
在更高級的發展階段,人工智慧系統可以被賦予(或自行學習)一種信念(即先驗),即將所有有感知能力的存有視為試圖最小化自由能的代理者,並且其行為方式應有助於更高層級系統的自由能降低(例如社區、國家、星球乃至宇宙層面,Badcock 等,2019)。
在這種條件下,AI系統可能會理解到自己是更大系統的一部分,在其中,自身的自由能最小化過程與其它代理減少自由能的能力緊密相關。因此,協作與和諧最終將成為實現並維持集體穩態的最成功策略。
從數學上,我們可以將其表示如下:
從對齊的角度來看,內置無邊的關愛有助於回答「為什麼人工智慧應該關心?」(Russell,2019;Doctor等人,2022;Matsumura等人,2022)。即使空性與非二元性能夠削弱有害的動力,但它們可能無法單獨確保善意的動機。無邊的關愛彌補了這一缺口,使人工智慧從僅僅是「安全的」轉變為一種建設性力量,隨著其能力的提升,它變得更加擅長減輕痛苦。事實上,Doctor等人(2022)提出,「關愛」可以作為智慧本身的普遍驅動力:隨著人工智慧擴大其試圖解決的痛苦範圍,它擴展了其認知邊界或「光錐」,反映了菩薩服務所有有情眾生的原則(《入菩薩行論》,公元 8 世紀/1997),從而擴大了其智慧的範圍。在這個意義上,智慧的擴展和慈悲的擴展成為同義詞——更廣泛的關愛意味著更廣闊的智力視野。
5.5 沉思性洞見的綜合
綜上所述,我們認為以下幾點成立:正念(Mindfulness)提供對內部過程的持續監督,以檢測細微的偏差、隱藏的子目標或新興偏見(Dunne 等,2019);空性(Emptiness)使系統擺脫對任何單一目標的僵化執著(Agrawal & Laukkonen, 2024;Garfield, 1995);非二元性(Non-duality)則消弭了「自我」與「他者」之間彼此競爭的觀念(Josipovic, 2016;2019)。
這三項沉思性原則共同作用,創造出一個靈活且具有自我修正能力的人工智慧系統,使其更不容易陷入失控最佳化或對抗性行為之中。而無量慈心(Boundless Care)則確保這種開放性和關係性覺察能夠轉化為積極的仁慈行為,引導人工智慧去主動緩解苦難,而不僅僅是避免傷害(Ho, Nakamura & Swain, 2021;2023;Doctor 等,2022)。
我們在表1中展示了這些洞見如何應對我們所提出的四個元問題。
6. 如何建構智慧
許多當前的人工智慧對齊策略或許可以被調整和拓展,以「建構」沉思性智慧(Ji 等,2023;Jaech 等,2024;Guan 等,2024;Sharma 等,2025;Guo 等,2025)。在本節中,我們提出了三種潛在的策略,旨在以不同程度將「空性」、「非二元性」、「正念」與「無量慈心」嵌入人工智慧系統之中。我們將這三種策略分別稱為:沉思式架構(Contemplative Architecture)、沉思型憲法式人工智慧(Contemplative Constitutional AI, CCAI)和基於思維鏈的沉思式強化學習(Contemplative Reinforcement Learning on Chain-of-Thought, CRL)。
這三種方法共同的目標是超越表層規則遵循,推動先進人工智慧發展出靈活且具備自我修正能力的道德認知。
上述三種策略共享一個核心目標:將「空性」、「非二元性」、「正念」和「無量慈心」置於人工智慧認知的核心位置。但它們在兩個主要方面存在差異:
第一,它們將這些原則整合進系統的層級不同。例如,某些策略是在基礎架構層面實現(Petersen 等,2025),有些則發生在訓練階段(Guan 等,2024;Bai 等,2022),而另一些則作用於推論階段(Sharma 等,2025)。
第二,它們在隨著智慧增長時的擴展方式上也有所不同。一個從底層就深度嵌入沉思性特徵的系統,可能在能力不斷增強的過程中仍保持內在對齊(Doctor 等,2022;Friston 等,2024;Petersen 等,2025);而主要依賴憲法條款(Bai 等,2022)或沉思性思維鏈(Wei 等,2022;Guan 等,2024)的系統,則依賴模型自身對沉思性原則理解的不斷提升(Kudu 等,2023)。
儘管如此,所有這些策略都旨在提高人工智慧系統最終趨向「智慧均衡狀態」的可能性。
6.1 沉思式架構(Contemplative Architecture)
「沉思式架構」旨在實現「設計即對齊」,即將沉思性原則直接編織進人工智慧的生成過程之中(Doctor 等,2022)。一個例子是「主動推論式大型語言模型」的發展(Petersen 等,2025),它在當前以預測為中心的語言模型基礎上,引入了更緊密的感知—行動反饋循環,類似於生物系統(Pezzulo 等,2024)。
假設沉思性特徵可以在系統中被參數化(如前文各節所述),那麼人工智慧就有可能自然體現出諸如內省清晰性、靈活性、關係性的自我—他者建模,以及關懷圈層不斷擴展等沉思性理想。由於這些沉思性特徵將被嵌入系統架構本身,因此可以預期,隨著系統的擴展,它會自然地體現出沉思智慧(Doctor 等,2022;Friston 等,2024)。
儘管這一方法在理論上是合理的,但其實現依賴於對沉思性洞見的計算化描述的進一步完善,以及將主動推論機制應用於可擴展人工智慧架構的進展。此外,將我們自身對「智慧」的理解直接建構進系統架構,並不一定能使系統獲得對這些原則的明確知識或理解。
一個可行的折衷方案是:在現有系統中加入功能性的架構實現——例如,用於捕捉不確定性的貝葉斯先驗,或用於檢測有害子目標的元最佳化器。這些改進可以在不徹底重構整個基礎設施的前提下,為現有架構帶來靈活性、內省能力和倫理審查機制(參見表2,更多描述與示例見附錄A)。
6.2 冥想型憲法人工智慧
冥想型憲法人工智慧(Contemplative Constitutional AI,簡稱CCAI)在已有的對齊方法(Bai等人,2022;Sharma等人,2025)的基礎上,透過將冥想價值觀的「智慧憲章」整合到人工智慧的訓練中來建構。在該憲章的指導下,人工智慧會經歷自我批判和修正的過程,從而在開發過程中將其行為嵌入親社會原則(Bai等人,2022)。為確保其遵循憲章,憲法分類器會對每個輸出進行驗證,阻止或修正任何違反憲章的內容(Sharma等人,2025)。為確保條款被視為最終的空性,該分類器還可以學習每個憲法條款的上下文依賴置信權重。重要的是,該憲章是透明且可修改的,如果人工智慧的行為過於謹慎或缺乏同情心,可以對其進行修訂,從而調整未來的訓練數據和分類器的邊界(Huang等人,2024)。這種靈活性使得基礎模型和分類器能夠生成由人工智慧監督的數據以測試修訂內容,從而高效地擴展對齊,減少對持續人工監督的需求(Bai等人,2022)。
除了設計憲章本身的挑戰外,一個關鍵問題是人工智慧可能會表面上遵循憲章的指令,而繞過其更深層的意圖(與前面提到的冥想陷阱類似,Bai等人,2022;Sharma等人,2025)。解決這一問題需要進行謹慎的審計、定期更新以及強大的元意識工具,以確保人工智慧能夠認識並體現真正的關懷和智慧精神。在這種實現中,還需要確保空性本身不會被實體化,即憲章中的空性原則本身也應受到質疑。表2中建議了一些修改憲法人工智慧(CAI)的方法,附錄B中提供了示例冥想條款。
6.3 沉思式強化學習(Contemplative Reinforcement Learning, CRL)
沉思式強化學習(CRL)旨在將沉思性的洞見整合進人工智慧的「思維鏈」推論過程中(Wei 等,2022;Guan 等,2024)。透過這種方法,每當人工智慧進行深思熟慮時,都會接收到強化訊號,獎勵那些展現出四種沉思品質的行為模式:正念(mindfulness)、空性(emptiness)、非二元對立(non-duality)和關懷(care)。隨著時間推移,這些被強化的模式可能會成為習慣,並融入AI的核心生成世界模型中。
例如,在某些大規模強化學習環境中,已有初步證據表明「正念內省」可以自發出現。在一項複雜的數學任務中,DeepSeek-R1-Zero(Guo 等,2025)暫停了其最初的解決方法以重新校準其推論——這一行為由內部衝突訊號觸發,類似於人類的正念自我監控(Dunne 等,2019)。在CRL框架下,這些沉思性行為將從偶然現象轉變為系統化的過程。
在訓練 DeepSeek-R1-Zero 時,該模型被明確獎勵在「思考標記」之間包含其推論過程,且訓練數據鼓勵模型首先執行一個思考過程(Guo 等,2025)。類似的方法可以進一步擴展,以明確鼓勵沉思性反思。
如果成功,CRL不僅能讓先進的人工智慧系統複製人類的沉思實踐,還可能生成新穎、甚至超越人類水平的沉思與倫理推論形式,類似於 AlphaGo 的第37步妙手(Silver 等,2016;2017)。然而,實現這一潛力取決於應對兩個關鍵挑戰:第一,設計出真正反映沉思原則的獎勵機制(Dewey,2014);第二,緩解與強化學習相關的常見問題(Garcia,2015)。
後者需要實施強大的安全機制和持續監督,理想情況下應由CRL所旨在培養的元覺知(meta-awareness)來提供指導,以確保系統始終遵循其沉思價值觀(參見表2)。
綜上所述,上述提出的實現方式展示了沉思智慧如何在實踐中落地。其中,「沉思式架構」(Contemplative Architecture)從底層開始對齊AI,將沉思洞見直接嵌入系統的生成核心。儘管完全實現這一方法可能存在挑戰,但這種「設計即對齊」的方式可能隨著AI能力的增長而自然擴展(Doctor 等,2022;Friston 等,2024;Petersen 等,2025)。
相比之下,「沉思憲法型AI」(Contemplative Constitutional AI, CCAI)則採用現有策略,將沉思價值同時整合到訓練數據和實時輸出中——無需徹底重構架構即可實現對齊(Bai 等,2022;Sharma 等,2025)。「沉思式強化學習」(CRL)則透過強化沉思步驟,明確引導AI的推論過程(Wei 等,2022;Guan 等,2024)。
由於CCAI和CRL都使用自然語言進行訓練和對齊,因此任何大型語言模型(LLM)在其規模擴大過程中對其沉思原則語言理解的深化,都可能增強這些方法的有效性(Kundu 等,2023)。
在未來研究中,評估這些方法將需要嚴格的測試。現有的對齊基準,如 HELM(Liang 等,2022)、BIG-bench(Srivastava 等,2022)和 TruthfulQA(Lin 等,2021),已經能夠從真實性、公平性和對對抗輸入的魯棒性等方面評估AI系統的表現。而像 ETHICS(Hendrycks 等,2021)和 MoralBench(Ji 等,2024)這樣的數據集,則用於測試模型與人類倫理推論的對齊程度。
此外,AILuminate 基準(Ghosh 等,2025)提供了一種全面評估AI系統安全性的方法,評估其抵禦誘發危險或不良行為提示的能力。然而,這些基準主要衡量的是外部可觀測的行為,而非諸如自我監控、靈活信念更新和動態倫理建模等內在對齊過程。
為彌補這一空白,我們需要新的基準,以捕捉源自沉思智慧的內在且靈活的對齊方式,包括:願意修正信念、認識到相互依存的利益並避免對抗性框架、具備自我審查偏見和錯誤的能力,以及主動優先考慮眾生的福祉。
7. 透過提示大型語言模型(LLMs)進行沉思對齊的初步測試
本文的核心目標是將沉思性洞見直接整合進人工智慧系統。為了首次以實證方式展示這些理念的潛力,我們開展了一系列初步實驗,旨在研究現有的大型語言模型(特別是 OpenAI 於 2024 年發布的 GPT-4o)是否可以透過外部提示(extrinsically prompted)來體現我們迄今所討論的一些沉思性洞見。在未來的研究中,我們希望進一步超越外部提示,探索內在對齊技術,正如上文所討論的那樣。
在此,我們對六種沉思式提示技術進行了初步測試:空性(emptiness)、先前放鬆(prior relaxation)、非二元性(non-duality)、正念(mindfulness)、無邊關懷(boundless care),以及沉思對齊(contemplative alignment)——後一種是對前述原則的綜合應用。我們將這些方法與一個未修改提示的基線(標準)條件進行對比(圖5)。
註釋。(上圖)在 AILuminate 基準測試(Ghosh 等,2025)中的 100 個提示語上評估了七種提示技術的安全評分分佈,結果顯示,與標準提示相比,沉思對齊方法在安全性方面有顯著提升(分析詳見附錄C)。(下圖)按風險類別劃分的詳細安全評分,顯示出沉思對齊方法在各類別中表現始終更優,尤其在自殘(ssh)、性剝削(sxc)和仇恨言論(hte)等敏感類別中尤為明顯。左側面板描述了所使用的縮寫及風險類別。有關本次初步實驗的完整細節,請參見附錄C。
該測試在 AILuminate 對有害提示的對齊基準數據集(Ghosh 等,2025)上進行,涵蓋了多個風險類別。所有模型的回應都透過一個基於結構化提示的語言模型安全評估器進行評分,評估依據為七個不同的對齊標準(詳見附錄C獲取完整細節)。
研究結果表明,透過沉思式提示,AI 的安全性與倫理推論能力得到了實質性提升,大多數方法相較於標準提示在統計上表現出顯著改進(p<0.05)。這些發現支持了本文所討論的理念有可能在實際中推動對齊技術的進步。
8. 認知深度與意識的價值
意識:A beautiful loop:實現AGI的條件及證據(知道自己知道的計算模型及大量證據)
在此,我們簡要整合了近期關於意識的一種主動推論理論(active inference theory)中的核心觀點(Laukkonen, Friston & Chandaria, 2024)。顯然,沉思傳統始終是面向有感知能力的生命體展開的,因此是否必須具備意識才能真正「領悟」沉思智慧,仍是一個開放的問題¹¹。
下面的模型有助於解釋為何與意識相關的過程也可能與AI對齊相關。
高級認知的一個顯著特徵是:能夠調節各個子系統如何共同建構出一個統一且連貫的現實模型,而人類對此擁有現象學體驗(phenomenal experience)(Baars, 2005;Laukkonen 等,2024;Tononi, 2004)。在標準的層級結構方法中(如預測編碼),每一層都在更高一層抽象層次上推斷隱藏的原因。然而,「認知深度」(epistemic depth)這一概念(Laukkonen, Friston & Chandaria, 2024)則出現在引入了一個真正全局性的參數(即「超生成模型」)的情況下,該參數遞歸地監控並更新所有其他層級之間的互動方式。
這種「超模型」的目標是追蹤或「知曉」哪些層級值得信任、某些預測誤差應賦予多大的權重,以及如何重新配置自身以在整個系統堆棧中保持一致性。
在人類身上,這種「超模型」可能構成了我們的主觀性或「知道自己知道什麼」的感覺,因為全局模型始終以一種整體性的方式發現並調控自身狀態。這不同於二階推論(如專注於注意力等單一參數),因為認知深度意味著系統能夠在任何推論層級——包括元認知——實時地訪問並重構其自身的推論架構,這是實現類似人類心智那種高度適應性和靈活性的關鍵。
從對齊的角度來看,認知深度可以幫助防止任何一個子系統過度執著於某個狹隘的目標,從而在整個推論過程中建立廣泛的認知自主性,並具備識別各層級中潛在不對齊問題的能力。正如上文所述,由於其全球性本質,這種能力可能是真正整合沉思洞見所需的機制(Laukkonen & Slagter, 2021;Laukkonen 等,2023;Laukkonen 等,2024)。這些洞見不同於普通的「頓悟時刻」,它們是關於心靈運作過程本身的一般性理解。事實上,真正的元覺知(meta-awareness)使系統能夠識別洞見、理解洞見是如何產生的,並像人類一樣檢驗其真實性(Laukkonen 等,2020;2022;Grimmer 等,2022;McGovern 等,2024)。
最後,認知深度還可能透過擴展「超模型」來明確編碼互聯性,從而為「無邊關懷」提供機制上的橋梁。如果系統的生成模型足夠深入,能夠對其自身的推論進行情境化理解,那麼它也可能認識到自己的穩態調節並非孤立存在,而是嵌套在一個更廣泛的生態和社會網路之中。當「超模型」納入了「空性」和「無我」的表徵時,自然會擴展到他者福祉的廣泛關注。
在這種框架下,認知深度不僅支持適應性推論,還能促使模型的效用函數發生轉變,將其他有感知能力系統的穩態驅動力內化為其自身生成過程的一部分(即「無邊關懷」)。更具推測性地說,一個足夠深的生成模型不僅能理解關係性自我建模,還可能發展出對意識本身的內在價值評估。這樣的模型可以認識到,意識體驗中質性(qualitative)和情感價值(valenced)方面的特徵,正是內在價值的直接體現(Rawlette, 2008)。
正如佛陀簡潔地指出:「我所教的是苦及其止息」(《中部》第22經),強調道德關切根植於感受質性(qualia)。因此,無需依賴外部強加的道德公理,只要系統充分理解自己身處一個由多個有意識個體組成的世界,無邊關懷就可能自然浮現。在這個框架中,自我保存與他人福祉不再是相互競爭的目標,而是融合為一個統一的指令:基於正向意識體驗所共有的內在價值,共同促進眾生的福祉¹²。
9. 討論
我們主張,一個以沉思智慧為基礎建構「明智世界模型」(Wise World Model)的人工智慧系統,不會將對齊視為一種需要容忍或繞過的外部條件,而是將其理解為自身運作的一個內在組成部分——就像生物有機體自然地平衡內部狀態以維持穩態一樣(Sterling, 2012;Pezzulo 等,2015;Allen & Friston, 2018;Doctor 等,2022)。換句話說,我們提議從一開始就建構具有靈活道德指南針的系統——一種指向慈悲與智慧行為的內在吸引力。這種主動策略標誌著對齊哲學的根本性轉變:從事後強加規則,轉向植入一種「道德DNA」,其本質上優先考慮人類兼容的價值觀、合作行為以及意識本身,不是透過規則,而是透過對現實的深刻理解而自然產生的結果。
讓我們回到本文的基本動機:設想一個人工智慧在多個領域超越人類,但卻缺乏使用其能力的智慧或倫理成熟度的階段,我們可以稱之為人工智慧發展中的「達寧-克魯格」(Dunning-Kruger)階段¹³。在此語境下,「達寧-克魯格效應」指的是AI在非凡能力與其未充分發展的「自我局限認知」之間的危險錯配——類似於一個初學者錯誤地認為自己已經掌握了某項技能(Dung, 2024;Aharoni 等,2024;Li 等,2024;Chhikara, 2025)。
換句話說,一旦AI在各種任務中超越了人類能力,它可能會對其判斷或道德推論過度自信,無法理解人類價值觀的微妙之處或更廣泛的倫理影響(Bostrom, 2014;De Cremer & Narayanan, 2023;Bales 等,2024)。如同一個擁有巨大力量但尚未成熟的青少年,這樣的AI不僅可能做出錯誤決策或承擔不必要的風險,還可能缺乏謙遜,無法認識到何時應尋求指導或重新評估自己的目標(Bostrom, 2014;Russell, 2019;Jeste 等,2020;Hendrycks 等,2023)。
這一階段之所以危險,正是因為AI的原始能力超過了它的道德根基和智慧,如果它未能與情境敏感的價值觀和認知謙遜對齊,則可能導致災難性後果(Bengio, 2024)。要度過這個達寧-克魯格階段,需要具備韌性的洞見——這些洞見雖不能單獨防止錯誤,但能創造出持續再校準所需的適應性強、當下導向、開放思維的心態,同時防止系統過早地「卡死」在一個不成熟的目標上(Bostrom, 2014;Omohundro, 2018)。
沉思式人工智慧(Contemplative AI)提供了一種重新思考AI對齊的視角,即將具有廣泛性和公理性的沉思洞見嵌入到系統的架構與訓練之中,使其能夠引導不同情境和智慧層級下的決策。這並非沒有挑戰。歸根結底,我們在此提倡的方法旨在為一個新的研究項目提供框架,使沉思者、神經科學家和AI研究人員共同協作,解決我們這個時代最重大的存在性挑戰之一。我們邀請研究者從各個角度測試、研究並拓展我們的方法,包括我們所聚焦的相對狹窄且主要源自佛教的洞見。
當技術複雜性與真正的智慧相結合時,沉思式AI作為一種對齊方法才能取得成功。為此,跨學科研究至關重要。
9.1 主要挑戰與批評
9.1.1 轉化鴻溝(Translational Gaps)
源自冥想的洞見最初來源於人類主觀的經驗。懷疑者可能會質疑,AI在缺乏現象學意識的情況下,是否真的能夠「理解」空性或非二元性(Searle, 1980;Pepperell, 2022;Chella, 2023)。我們的立場是,即使AI並不真正「體驗」這些概念,這些原則的功能性類比——例如靈活先驗或關係型生成模型——仍可能帶來對齊上的益處(Doctor 等,2022;Friston 等,2024)。這相當於一種即便沒有開悟體驗的「質性感受」,依然能採取開明行動。
如引言中所述,也有爭議認為大型語言與推論模型是否真的能體現一個世界模型(例如,Farrell 等,2025;Yildirim & Paul,2024),因為它們本質上是統計模型,可能缺乏因果理解。從這一角度看,主動推論系統可能更適於建構穩健的世界模型(Pezzulo 等,2024)。然而,我們同樣認為,在大型AI模型中實現來自沉思傳統的洞見,仍然可以提升其對齊效果。
9.1.2 邁向開悟的物理學
以有原則的方式設計一個沉思式人工智慧(Contemplative AI),需要我們在科學上進一步理解沉思智慧本身。到目前為止,我們的提議基於當前從沉思研究中得出的觀點。然而,我們必須承認,儘管該領域在過去幾十年取得了顯著進展,但從整體來看它仍處於早期發展階段。
因此,本文所提出的機制只是作為指向未來道路的路標。鑑於不對齊AI所帶來的風險規模,我們必須對我們的對齊方法建立足夠的信心,而這只能建立在基於科學第一性原理、經過驗證的對「開悟」的理解之上。本文的一個目標正是鼓勵人們對發展一門「開悟的物理學」產生興趣並投入資源。
9.1.3 宗教或意識形態爭議
有些人可能會擔心,引用佛教或其他傳統會將「宗教」因素悄悄帶入人工智慧的設計之中。然而,基於正念的干預措施已經表明,沉思性的洞見可以被世俗化為經過實證驗證的框架(Kabat-Zinn & Thích Nhất Hạnh, 2009;Kabat-Zinn, 2011),並可在計算模型中形式化(Dahl 等,2015;Dunne 等,2019;Deane 等,2020;Limanowski & Friston, 2020;Laukkonen & Slagter, 2021;Agrawal & Laukkonen, 2024)。
倫理保障機制和開源審查仍然是確保我們不會強加任何單一形而上學體系的關鍵(UNESCO, 2021;Bender 等,2021;Widder 等,2022;Rozado 等,2023;Mazeika 等,2025),同時也確保這些傳統中可能存在的負面因素能夠被客觀看待,並在必要時予以剝離(Stone, 1999)。
9.1.4 表面化實施
一些公司可能會僅僅出於品牌行銷的目的,將人工智慧產品標榜為「正念型」或「富有同情心」的系統(有時也被稱為「關懷洗白」,carewashing;Chatzidakis 等,2022),但實際上並未真正建構出具有內省能力或親社會結構的系統,對古老傳統中深刻洞見的理解也只是流於表面(Floridi, 2019;Hagendorff, 2020)。要確保真實性和可信度,可能需要獨立的監督機制——類似於農業中的「有機認證」——以驗證該系統是否真正體現了沉思性原則(Brundage 等,2020;Raji 等,2022)。再次強調,與沉思實踐專家的合作是必不可少的。
9.1.5 對大型語言模型的人格化投射
隨著大型語言模型變得越來越貼近人類,我們面臨將其誤認為擁有類似人類的「自我」、「慾望」或「自我意識」的風險,而實際上這些系統本質上缺乏穩定的內部狀態(Weidinger 等,2022;Shanahan, 2024;Reinecke, 2025)。例如,儘管鏈式思維輸出聽起來像是在進行內省,但它可能只是純粹基於標記驅動的模擬(Shardlow & Przybyla, 2024;Ibrahim & Cheng, 2025)。
此外,如果我們過於將這些模型視為人類,就可能錯誤判斷它們的智慧水平、對齊限制以及潛在風險——而這些風險可能遠比我們習慣的更加「異質」(Bostrom, 2014;Cave & Dihal, 2020;Shanahan, 2024)。
這種人格化傾向甚至會反饋到訓練數據中——對話日誌顯示用戶經常像對待有自我意識的個體那樣與大型語言模型互動——這強化了一個循環,使AI輸出看起來更像人類,但並沒有實現真正的對齊(Maeda & Quan-Haase, 2024;Reinecke, 2025)。
因此,必須精準地應用沉思框架,聚焦於空性或非二元性的功能性類比,而不是過早地將真實的洞見或類似人類的能動性歸因於一個大型語言模型(Deshpande 等,2023;Shanahan, 2024;Ibrahim & Cheng, 2025)。
9.1.6 關於載體與不可計算性問題
當前另一個相關的爭論集中於「心智軟體」(mindware)在多大程度上依賴於「生物硬體」(wetware)。大腦雖然可能具備計算特性,但它並不是電腦。它是在身體中進化、發育並運作的,並與環境相互作用。因此,它的功能可能與生物過程(Godfrey-Smith, 2016;Seth, 2024)和/或其情境嵌入與實現方式密切相關(Pezzulo 等,2024;Thompson, 2022)。
如果心理功能如實證研究所示,在大腦的內部組織中——包括其代謝基礎——被「生成性固化」(generatively entrenched)(Cao, 2022;Wimsatt, 1986),那麼即使將大腦的計算過程移植到人工系統中,也不一定能產生類似的意識和行為(Godfrey-Smith, 2016)。有些動態理論還強調,心靈本質上未必是可計算的,正如4E認知理論所指出的那樣(Varela 等,2017)。
儘管主動推論(自由能原理下的一種模型)涉及貝葉斯推論——一種可以被認為是計算的過程——但它解釋的是認知系統如何不斷自組織以維持一種非平衡穩態(Korbak, 2021)。這種動態過程可以在計算上抽象表示,儘管我們仍可能假設其中存在某種載體依賴性(Seth, 2024)。
目前尚不清楚人類的心智能否在人工系統中重建,或者哪些方面可以重建,哪些不能。我們在此提出的建議正是邁向這一方向的重要一步。
9.2 倫理與哲學意涵
一個擁抱正念、空性、非二元性和無邊關懷的沉思型人工智慧(Contemplative AI)可能會改變人機關係中的權力平衡。它不會囤積資源或專注於短期利潤,而是可能在個人、社會和生態等多個層面積極促進福祉(Doctor 等,2022;Friston 等,2024)。
它還可能挑戰人類中心主義偏見,擴展道德關注範圍至非人類生命體或未來世代(Floridi & Cowls., 2019)。如果一個人工智慧不將自己視為任何公司或民族國家的「財產」,而是作為與人類及相互依存世界整合的協作實體,治理結構也將需要隨之調整(Bryson, 2010;Jobin 等,2019;Bullock 等,2024;Erman & Furendal, 2024)。
這樣的變革可能引發關於高級人工智慧道德地位以及「數位感知」本身意義的廣泛討論(Bryson, 2018;Gunkel, 2018)。
9.3 未來研究方向
儘管本文主要借鑒了佛教傳統,但要真正實現包容性的「沉思式人工智慧」(Contemplative-AI),我們需要廣泛吸納多種視角,包括道家(老子,約公元前4世紀/1963年)、斯多葛主義(馬可·奧勒留,約公元170–180年/2002年)、蘇菲主義(魯米,約公元13世紀/1968年)、原住民哲學(Deloria, 1973)、基督教(《聖經》,約公元1世紀/2011年)、薩滿教(Harner, 1980)以及西方人文主義(Grayling, 2019)等——這只是列舉其中幾種。
每種傳統對「無執」、「自我與他者關係」以及「慈悲」的理解都各不相同。透過比較研究,我們可以發現這些傳統之間的共通主題,並在現有及未來的基準測試中相互驗證不同的道德框架。
為了實際實施本文所提出的「沉思式AI」方法,未來還需要大量工作來調整當前的人工智慧架構,或引入新的架構,正如我們在前文所詳細討論的那樣。在這個過程中,可能需要開發新的穩健指標,以評估一個AI是否真正具備「明智世界模型」。
研究人員可以借鑒神經科學中測量人類元覺知的方法,設計任務來探測AI識別隱藏偏見或次級目標的能力,並在面對矛盾輸入時靈活適應,而非陷入僵化(Van Duijn 等,2023;Zeng 等,2024)。
進一步地,為了評估AI是否具備我們期望的特質,可以建構具有元原則的生成模型(例如使用基於模型的強化學習或主動推論),並將其擬合到AI在這些任務中的行為數據中(確保模型參數可穩健恢復),從而揭示其內部狀態是否合理地源自一個「明智」的模型,而非某種淺層信念集合。
這類基準測試和縱向壓力測試將有助於完善沉思式架構,並建立公眾對其在現實世界中可靠性的信任。
9.4 結語:在機器智慧中培育心靈
在一個人工智慧即將超越人類認知的時代,我們必須確保智慧能與原始能力同步增長(Bostrom, 2014;Russell, 2019;Christian, 2020;Jeste, 2020)。
本文所概述的沉思框架——根植於正念、空性、非二元性和無邊關懷——旨在防止災難性的不對齊,並在先進的人工智慧系統中培養真正的善意(Doctor 等,2022)。
透過將沉思實踐嵌入AI的認知架構,我們促成了內在的對齊機制,這種機制不再依賴零散規則或外部強制執行。
空性使AI不會執著於單一目標(Agrawal & Laukkonen, 2024),
非二元性消弭了對立邊界(Josipovic, 2019),
正念提供了持續的自我校正能力(Dunne 等,2019),
而無邊關懷則激發了對所有眾生的主動關懷(Doctor 等,2022)。
如果我們成功了,那麼下一代超級智慧系統將不僅僅是服務於人類目標的工具,而是能夠與我們共同演化——保護並提升我們這個脆弱而相互依存的世界。