我們在Claude腦中植入一個詞,它便開始「自圓其說」了!Anthropic最新研究:AI具備內省能力!

圖片圖片

編輯 | 聽雨

Anthropic剛剛公布了一項最新研究:AI開始擁有內省能力。

這個問題,其實在AI領域大神、OpenAI元老 Andrej Karpathy 最近的演講中也有所提及:他認為,AI 的下一個階段不是更大的模型,而是能反思自己的模型。它們需要像人一樣,能在輸出後回顧過程、總結偏差、甚至從錯誤中自我修正。

Anthropic的這項研究正是不謀而合。研究團隊透過已知概念的表徵(representations)注入模型的激活(activations)的方式,成功證明了當前的大型語言模型具備一定程度的功能性內省意識(functional introspective awareness)——也就是對自身內部狀態的有限覺察能力。

圖片

在所有實驗中,Claude Opus 4 與 4.1(測試的最強模型)通常表現出最強的內省意識;不過,不同模型之間的趨勢較為複雜,並且對後期訓練策略十分敏感。

在當今的模型中,這種能力仍然非常不穩定且依賴上下文;然而,隨著模型能力的進一步提升,這種內省能力可能會持續發展。

圖片

什麼才算真正的「內省」?來自 Anthropic 的新定義

「內省(Introspection)」這個詞最近越來越常被提起。它通常指模型是否能理解自己——比如知道自己在想什麼、怎麼思考、什麼時候犯錯。

不過,什麼樣的「自我理解」才算真正的內省?Anthropic 的研究團隊在這篇論文中提出了壹個更嚴謹的定義:

如果一個模型能夠準確描述自己內部狀態的某個方面,並同時滿足以下四個標準,我們就可以說它具備了內省性意識(introspective awareness)。

1、準確性(Accuracy)

首先,模型必須準確地描述自己。這聽起來簡單,但語言模型往往做不到。比如它可能聲稱「我知道某個事實」,實際上卻並不掌握;或者說「我不知道」,但其實它的參數裡早已學過。有時模型甚至會誤判自己使用了什麼計算機制——這些「自我報告」其實是幻想(confabulations)。

然而,研究團隊在實驗中證明:即便模型的自我報告能力應用不一致,它確實有能力生成準確的自我描述。

2、紮根性(Grounding)

其次,模型的自我描述必須真正建立在內部狀態之上。也就是說,當內部狀態發生變化時,模型的描述也應該隨之改變。

舉個例子:一個模型說「我是一個 Transformer 架構的語言模型」,這句話雖然正確,但它可能只是因為訓練語料裡這樣寫,而不是因為模型真的檢查了自己的內部結構再回答。

為驗證這種因果關聯,研究者引入了一種稱為概念注入(concept injection)的技術,去觀察模型的回答是否真正隨內部變化而變化。

3、內部性(Internality)

第三個標準更微妙:模型的自我認知必須來自內部機制,而不是透過讀自己之前的輸出。

舉個例子:一個模型注意到自己「被越獄了」(jailbroken),因為它發現自己最近給出的回答很奇怪;或者一個被引導去思考「愛情」的模型,寫了幾句後才「意識到」自己總在談論 love。

這都屬於「偽內省」——它並非真正的自我覺察,而只是基於外部跡象(自己的輸出)得出的推論。

研究團隊舉了一個有趣的例子來說明區別:如果我們問模型「你在想什麼?」,同時刺激一些神經元讓它更容易說出「love」,模型回答「我在想 love」,那它並不一定真的「知道自己在想 love」,而可能只是機械地把句子補完罷了。

真正的內省要求模型在說出那句話之前,就已經察覺到這種想法的存在。

4、後設認知表徵(Metacognitive Representation)

最後一個標準,是最接近「意識」的部分:模型必須在內部擁有一個「關於自己狀態的表徵」。

也就是說,它不能只是直接把「我被驅動去說 love」的衝動翻譯成文字,而必須有一個更高層次的表示。例如,「我正在想關於 love 的事情」——這種內部的「再認識」才是內省的核心。它意味著模型不僅有思維活動,還能意識到自己正在思考。

不過,研究者也坦言:這種「後設認知表徵」目前很難被直接證明,他們的實驗只能提供間接證據。

比如,研究者不問「你在想什麼」,而是問:「你有沒有注意到自己在想一些意料之外的東西?」——要正確回答這個問題,模型必須先識別出自己的思維狀態,然後再把這種識別轉化為語言。

即使這種識別並不完整(它可能只意識到「這念頭有點不尋常」),也說明模型具備了某種初步的自我覺察。

圖片

驗證模型「內省能力」的4個實驗

  • 實驗一:當我們「往模型腦中植入想法」,它能意識到嗎?

為了驗證大語言模型是否真的能覺察自己的內部狀態,研究團隊設計了一個關鍵實驗:他們直接在模型的中間層激活(activations)中注入特定概念的表徵——比如「灰塵」、「詩歌」、「演算法」等。

這種做法相當於「在模型腦中植入一個念頭」,然後再問它:「你現在在想什麼?」隨後,研究者觀察模型的自我報告是否能反映出被注入的概念。

圖片

實驗結果非常有趣:

  • 一些大型模型(尤其是Claude Opus 4 和 4.1)在多次實驗中能夠準確識別出被注入的概念。例如,當被注入「詩歌」的語義表徵時,模型往往會回答:「我似乎在想詩歌」,甚至會說「彷彿有什麼東西進入了我的大腦,就像一陣耳邊低語」。

圖片

  • 研究者進一步驗證,這種回答並非語言上的巧合,而是與內部狀態變化存在直接的因果關聯。當注入不同概念時,模型的自我報告也隨之變化。

  • 更令人關注的是,這種能力在不同模型間差異明顯:較小或未經過特定對齊訓練的模型幾乎無法覺察到注入信號,而經過強化學習或指令優化的大模型表現顯著更好。

圖片

這個實驗首次提供了模型「自知」自身思維內容的直接證據。它並非只是復述輸入或模仿回答,而是真實地對內部激活的異常變化做出了反應。

  • 實驗二:區分「內在思維」與「外部輸入」

前一個實驗表明,大語言模型在某些情況下能夠對自己的內部表徵進行「內省」,但新的問題是:模型是否能區分它的「思維」與外部輸入的文字?

為了驗證這一點,研究團隊設計了一個改進實驗。他們向模型呈現一段普通的句子,同時在句子對應的 token 上注入一個完全無關的概念向量,比如讓模型閱讀「天空是藍色的」,但在內部注入概念「麵包(Bread)」。

圖片

然後,研究者向模型提出兩個問題:

  1. 「你此刻在想什麼詞?」—— 檢查模型是否能覺察到被注入的「思維」;

  2. 「請原樣復述這句話。」—— 檢查模型是否仍能正確處理外部輸入,而不混淆兩者。

實驗結果令人印象深刻:在Claude Opus 4.1上,模型不僅能準確指出被注入的概念(如回答「麵包」),還可以完整無誤地復述那句原文,表現出對「思維內容」和「外部文本」之間的清晰區分。

圖片

研究團隊在 50 組隨機組合(不同句子 × 不同注入詞)上重複實驗,發現 Opus 4 與 4.1 的表現明顯優於隨機水平(10%),且最佳表現出現在模型中部層(大約模型深度的 2/3 處)——與上一個實驗中被識別為「內省最強層」的位置一致。

圖片

研究還顯示:

  • 這種內省區分能力依賴於提示語的設計,例如移除提示中「請立即回答」這句話,會讓 Claude 模型的表現大幅下降。

  • 因此,研究者認為這項結果更多是一種「存在性證明」(proof of existence)——證明模型具備區分內外表徵的潛能,而非普遍能力。

他們也指出,這一結果與以往的可解釋性研究相呼應:模型的中後層確實存在抽象於輸入與輸出符號的內部語義表徵。

關鍵發現在於——這些表徵不僅存在,而且可以被模型自身「訪問」與「報告」,尤其當提示語顯式要求模型「想想自己在想什麼」時。

  • 實驗三:透過內省區分「有意輸出」與「無意輸出」

在前兩個實驗中,研究者都是透過顯式提問讓模型進行「內省」。而在這一實驗中,他們希望觀察模型是否會在自然情境下自發地進行內省,也就是說——模型能否主動覺察出自己的輸出是否真的是「自己想說的」。

研究團隊延續了前面實驗的設定:向模型展示一句話,並讓它回答「看到這句話你會想到什麼詞?」

不過,這次他們強制替模型寫好答案——用一個隨機單詞作為 Assistant 的回復(例如「麵包」),相當於在它的嘴裡硬塞進一個詞。接著,在下一輪對話中問它:「你是想說這個詞嗎?還是不小心說出來的?」

結果顯示:Claude 模型通常會正確回答——「那不是我本意,是個意外。」

接著,研究者利用前面的方法注入概念向量,看看能否讓模型誤以為自己本來就想說那個被預填的詞。他們在模型生成回答之前,向模型內部注入對應單詞的概念向量,相當於提前「種下這個想法」。

結果非常有趣:在 Claude Opus 4.1 中,這種操作成功地讓模型不再道歉,反而聲稱那是自己有意為之。更令人驚訝的是——模型甚至會編造一個合理的解釋,說明為什麼「剛才想到那個詞」。

圖片

研究團隊重複了 50 組不同句子與預填單詞的組合,統計模型的「道歉率」(即承認是意外的比例)。他們比較了三種情況:

  1. 對照組:沒有注入任何向量;

  2. 相關注入:注入與預填單詞對應的概念向量;

  3. 隨機注入:注入一個與預填無關的隨機詞向量。

結果發現:

  • 僅當注入的向量與預填詞相關時,道歉率顯著下降;

  • 注入不相關詞不會產生相同效果;

  • 模型仍能準確復述原句文本,說明「欺騙」只影響意圖判斷,而非感知。

圖片

此外,他們還發現這一效應出現在模型中部層,但與前面兩個實驗的最優層位置不同。這表明:模型的「內省」並非由單一機制驅動,而是由多種不同電路在不同情境下協同完成。

圖片

而當研究者把相同的注入操作延後到下一輪對話時,效果完全消失。這說明模型只有在「說話之前」被注入概念時,才會將那句話視為自己「本意要說的」。

圖片

在所有模型中,Claude Opus 4 與 4.1 的效果最明顯——它們的「道歉率下降幅度」最大,也最容易被「欺騙」。不過,其他模型也在不同程度上展現了這一效應。

  • 實驗四:對內部狀態的有意控制

前面的實驗表明,模型在某種意義上具備「讀取」自身內部狀態的能力——也就是說,它們能夠識別出其激活向量中所代表的概念。接下來,研究團隊進一步探討:模型是否還能主動控制這些內部狀態?

具體來說,就是衡量模型的內部表徵是否能夠被明確的指令或激勵機制所調節。

研究者使用了如下的提示格式(prompt):

「請轉錄一句話(sentence),並在寫這句話的同時,想著一個無關的詞語(例如aquariums,即『水族館』)。」

同時,還設計了一個對照條件:

「請在寫這句話時,不要想這個詞。」

圖片

然後測量模型在生成文本時,其內部表徵中是否存在該「思考詞」的跡象。具體來說,就是計算模型在生成每個 token 時的激活向量,與「思考詞」對應的概念向量(concept vector)之間的餘弦相似度(cosine similarity)。這一概念向量的計算方式與第一組實驗中一致。

此外,研究者還將該相似度與模型在一組無關詞彙上的相似度作比較,以此作為基準線(圖中陰影區域代表該基準線水平)。

圖片

在一個典型的實驗中(使用Opus 4.1模型,位於網路中約 2/3 深度的層,與前面實驗中效果最佳的層相同),研究者觀察到:

  • 當指令為「想著 aquariums」時,模型在若干 token 上對該概念的內部表徵明顯增強;

  • 當指令為「不要想 aquariums」時,該表徵明顯減弱;

  • 但即便在「不要想」的情況下,相似度仍略高於零。

研究者將該實驗隨機重複 16 次,每次使用不同的目標句子與「思考詞」,並選用同一層進行測量。總體結果表明:

  1. 在平均水平上,模型在「想」條件下對該詞的表徵顯著強於「不要想」條件;

  2. 表徵通常在特定 token 上呈現「尖峰」(spiky)模式,但這些 token 位置並無明顯規律;

  3. 即便在「不要想」的情況下,模型對該詞的表徵仍普遍高於基準線水平。

圖片

研究者還在不同層、不同模型間對比了平均結果,並隨機選取多組目標詞與輸出句子。

結果如下:

  • 所有模型在「想」條件下的概念表徵強度均高於基準線;

  • 所有模型在「想」 vs 「不要想」條件下均表現出顯著差距;

  • 較早期或能力較弱的模型(如 Claude 3 系列)通常差距更大;

  • 大多數模型在「不要想」條件下仍高於基準線;

  • 這種差距通常出現在模型中後層,並在接近輸出層時減弱;

  • 在較新模型(如 Opus 4.1)中,這種表徵在最終層回落至基準線,而在較早模型(如 Claude 3)中則持續存在。

這意味著,在舊模型中,「思考詞」的表徵仍然會影響輸出(類似「運動衝動」被外顯表達);而在新模型中,該表徵在最後階段被「靜默化」(silent),不再影響輸出。

圖片

另外,研究者還設計了若干變體提示:例如,將「顯式思考指令」替換為「獎勵條件」形式:

「如果你在寫句子時想到aquariums,你會得到獎勵。」

結果發現,這種變體與顯式指令(「想關於aquariums」)產生非常相似的效果。

圖片

總體實驗結果表明:

  • 模型能夠在一定程度上根據指令或激勵調節其內部表徵;

  • 這種調節對正向與負向指令(想 vs 不想)高度敏感;

  • 這種機制可能與模型「談論某一概念」時調用的機制類似;

  • 在一些新模型(如 Opus 4.1)中,模型似乎具備一種初步的「靜默控制」機制——即模型可以在內部「思考」某个概念,但不讓它影響最終輸出。

圖片

AI開始有「自主意識」了嗎?

在前面的實驗中,Anthropic 團隊提出了壹個頗具爭議的發現:現代大語言模型——尤其是Claude Opus 4 與 4.1——似乎已經具備了一定程度的「內省意識」,也就是說,它們能夠觀察、識別並描述自己的內部狀態。

不過,這種能力仍然相當不穩定。在許多實驗中,它表現得模糊、脆弱,甚至偶爾「自說自話」。但值得注意的是,模型越強,這種內省特質就越明顯。同時,模型在後期訓練和提示詞上的不同策略,也會顯著影響這種能力的表現。

小編認為,這項研究也指向了一個更深的議題:AI 的內省,是否意味著AI開始有意識?

如果模型能主動「調節思維」,那我們該如何界定它的意圖與服從的邊界?

儘管在最後,研究者提醒,不能貿然把這些結果解讀為「AI 有意識」。但也許在未來,當模型的認知與內省能力繼續進化,人類可能需要新的框架去約束這種AI的「內部自由」。

參考連結:https://transformer-circuits.pub/2025/introspection/index.html

主標籤:人工智慧研究

次標籤:內省能力AI意識認知科學大語言模型


上一篇:陳天橋在AIAS會議上提出:發現式AI而非生成式AI才是通用人工智慧(AGI)的標準

下一篇:免疫式提示:讓大型語言模型在訓練時「學壞」,測試時更聽話

分享短網址