透過稀疏電路理解神經網路

2025 年 11 月 13 日

研究發表

我們訓練模型以更簡單、更可追蹤的步驟思考——這樣我們就能更好地理解它們的運作方式。

閱讀論文

神經網路驅動著當今最強大的 AI 系統,但它們仍然難以理解。我們並非以明確的逐步指示來撰寫這些模型。相反,它們透過調整數十億個內部連接(或稱「權重」)來學習,直到掌握任務。我們設計訓練規則,但並未設計出現的特定行為,結果形成一個密集的連接網路,沒有人類能輕易解讀。

我們對可解釋性的看法

隨著 AI 系統變得更強大,並對科學、教育和醫療保健等領域的決策產生真實世界影響,理解它們的運作方式至關重要。可解釋性指的是幫助我們理解模型為何產生特定輸出的方法。我們有許多方式可以實現這一點。

例如,推理模型被激勵在通往最終答案的過程中解釋其工作。思考鏈可解釋性利用這些解釋來監控模型行為。這立即就有用:目前推理模型的思考鏈似乎能反映如欺騙等令人擔憂的行為。然而,完全依賴此特性是一種脆弱策略,未來可能失效。

另一方面,本研究的焦點——機制可解釋性——旨在完全逆向工程模型的計算。到目前為止,它尚未立即有用,但原則上能提供模型行為更完整的解釋。透過在最細粒度層級解釋模型行為,機制可解釋性能做出較少假設,並給予我們更多信心。但從低階細節到複雜行為解釋的路徑更長、更困難。

可解釋性支持幾個關鍵目標,例如實現更好監督並提供不安全或策略性錯位行為的早期警示。它也補充我們的其它安全努力,如可擴展監督、對抗訓練和紅隊測試。

在本研究中,我們顯示可以經常以更容易解釋的方式訓練模型。我們視此工作為對密集網路事後分析的有前景補充。

這是一個非常雄心勃勃的賭注;從我們的工作到完全理解最強大模型的複雜行為,有很長的路要走。不過,對於簡單行為,我們發現使用我們方法訓練的稀疏模型包含小型、解耦的電路,這些電路既可理解且足以執行該行為。這暗示可能有一條可行的路徑來訓練我們能理解機制的大型系統。

新方法:學習稀疏模型

先前的機制可解釋性工作從密集、糾纏的網路開始,並試圖解開它們。在這些網路中,每個單獨神經元連接到數千個其他神經元。大多數神經元似乎執行多種不同功能,使得理解看似不可能。

但如果我們訓練未糾纏的神經網路,擁有更多神經元,但每個神經元僅有數十個連接呢?那麼結果網路可能更簡單、更容易理解。這是我們工作的核心研究賭注。

秉持此原則,我們訓練語言模型,架構與現有語言模型如 GPT-2 非常相似,僅有一小修改:我們強制模型絕大部分權重為零。這限制模型僅使用極少數可能的神經元間連接。這是簡單變更,我們主張這大幅解耦模型內部計算。

比較密集電路與稀疏電路的圖表。密集版本顯示兩列節點有許多互聯線條,而稀疏版本顯示相同佈局但連接較少、更具選擇性。

在正常密集神經網路中,每個神經元連接到下一層每個神經元。在我們的稀疏模型中,每個神經元僅連接到下一層少數神經元。我們希望這能使神經元及整體網路更容易理解。

評估可解釋性

我們希望測量稀疏模型計算解耦的程度。我們考慮各種簡單模型行為,並檢查是否能隔離負責每個行為的模型部分——我們稱之為電路。

我們手動策劃一套簡單演算法任務。對每個任務,我們將模型修剪至仍能執行任務的最小電路,並檢查該電路有多簡單。(詳情見我們的論文。)我們發現透過訓練更大、更稀疏的模型,能產生能力更強、電路更簡單的模型。

散點圖顯示模型能力(預訓練損失)在 x 軸,對可解釋性(修剪電路大小)在 y 軸。點代表不同大小與稀疏度的模型,顏色表示總參數數,標記大小表示非零參數數。箭頭標記右上方向為「更好」。

我們繪製模型的可解釋性對能力(左下更好)。對固定稀疏模型大小,增加稀疏度——將更多權重設為零——會降低能力但提升可解釋性。擴大模型大小會將此邊界向外移,暗示我們能建構既能力強又可解釋的大型模型。

為具體說明,考慮一個任務:訓練於 Python 程式碼的模型須以正確引號類型完成字串。在 Python 中,「hello」須以單引號結束,「hello」須以雙引號結束。模型可透過記住開啟字串的引號類型並在結尾重現來解決。

我們最具可解釋性的模型似乎包含精確實作該演算法的解耦電路。

圖表說明稀疏 Transformer 中的範例電路。顯示特定神經元與注意力頭如何回應如「(」與「circuits」等輸入權杖啟動,標註正負權重、乘法、非線性及 MLP 與注意力層間連接路徑,最終至輸出權杖機率。

稀疏 Transformer 中預測字串以單或雙引號結束的範例電路。此電路僅使用五個殘差通道(垂直灰線)、第 0 層兩個 MLP 神經元、第 10 層一個注意力查詢-鍵通道及一個值通道。模型 (1) 在一殘差通道編碼單引號、在另一編碼雙引號;(2) 使用 MLP 層轉換成偵測任何引號的一通道及分類單雙引號的另一通道;(3) 使用注意力運作忽略中間權杖、找到前引號並複製其類型至最終權杖;(4) 預測匹配的結束引號。

依我們的定義,上圖精確連接足以執行任務——移除模型其餘部分,此小型電路仍運作。它們也必要——刪除這些少數邊緣會使模型失效。

我們也檢視一些更複雜行為。這些行為的電路(如下所示變數綁定範例)較難完全解釋。即使如此,我們仍能達成相對簡單的部分解釋,這些解釋能預測模型行為。

圖表強調 Python 函式 get_neighbors 中稀疏 Transformer 範例電路。兩個 current = set() 指派被框起,彩色箭頭顯示哪些注意力頭(標註 Q/K/V 索引)啟動,將變數 current 每個出現連至迴圈中的使用。

另一範例電路,細節較少。為決定變數 current 的類型,一注意力運作在定義時將變數名稱複製至 set() 權杖,另一後續運作將類型從 set() 權杖複製至變數後續使用,讓模型推斷正確下一個權杖。

未來之路

此工作是朝更大目標邁出的早期一步:使模型計算更容易理解。但還有很長的路要走。我們的稀疏模型遠小於前沿模型,其計算大部分仍未解釋。

下一步,我們希望將技術擴展至更大模型,並解釋更多模型行為。透過列舉具能力稀疏模型中更複雜推理的底層電路基序,我們能發展理解,幫助更好地針對前沿模型調查。

為克服訓練稀疏模型的低效率,我們看到兩條前進路徑。一條是從現有密集模型提取稀疏電路,而非從頭訓練稀疏模型。密集模型在本質上比稀疏模型更有效部署。另一路徑是開發更有效訓練可解釋性模型的技術,可能更容易投入生產。

請注意,此處發現並非保證此方法能延伸至更強大系統,但這些早期結果令人振奮。我們的目標是逐步擴大我們能可靠解釋的模型部分,並建構使未來系統更容易分析、除錯與評估的工具。

主標籤:稀疏電路

次標籤:神經網路人工智慧安全機制可解釋性可解釋性


上一篇:小紅書提出DeepEyesV2,從「看圖思考」到「工具協同」,探索多模態智能新維度

下一篇:強化學習(RL)記憶更牢固,監督微調(SFT)更容易遺忘?普林斯頓陳丹琦團隊改寫後訓練認知

分享短網址