透過稀疏電路理解神經網路

2025 年 11 月 13 日

我們訓練模型以更簡單、更可追蹤的步驟思考——這樣我們就能更好地理解它們的運作方式。

神經網路驅動著當今最強大的 AI 系統，但它們仍然難以理解。我們並非以明確的逐步指示來撰寫這些模型。相反，它們透過調整數十億個內部連接（或稱「權重」）來學習，直到掌握任務。我們設計訓練規則，但並未設計出現的特定行為，結果形成一個密集的連接網路，沒有人類能輕易解讀。

我們對可解釋性的看法

隨著 AI 系統變得更強大，並對科學、教育和醫療保健等領域的決策產生真實世界影響，理解它們的運作方式至關重要。可解釋性指的是幫助我們理解模型為何產生特定輸出的方法。我們有許多方式可以實現這一點。

例如，推理模型被激勵在通往最終答案的過程中解釋其工作。思考鏈可解釋性利用這些解釋來監控模型行為。這立即就有用：目前推理模型的思考鏈似乎能反映如欺騙等令人擔憂的行為。然而，完全依賴此特性是一種脆弱策略，未來可能失效。

另一方面，本研究的焦點——機制可解釋性——旨在完全逆向工程模型的計算。到目前為止，它尚未立即有用，但原則上能提供模型行為更完整的解釋。透過在最細粒度層級解釋模型行為，機制可解釋性能做出較少假設，並給予我們更多信心。但從低階細節到複雜行為解釋的路徑更長、更困難。

可解釋性支持幾個關鍵目標，例如實現更好監督並提供不安全或策略性錯位行為的早期警示。它也補充我們的其它安全努力，如可擴展監督、對抗訓練和紅隊測試。

在本研究中，我們顯示可以經常以更容易解釋的方式訓練模型。我們視此工作為對密集網路事後分析的有前景補充。

這是一個非常雄心勃勃的賭注；從我們的工作到完全理解最強大模型的複雜行為，有很長的路要走。不過，對於簡單行為，我們發現使用我們方法訓練的稀疏模型包含小型、解耦的電路，這些電路既可理解且足以執行該行為。這暗示可能有一條可行的路徑來訓練我們能理解機制的大型系統。

新方法：學習稀疏模型

先前的機制可解釋性工作從密集、糾纏的網路開始，並試圖解開它們。在這些網路中，每個單獨神經元連接到數千個其他神經元。大多數神經元似乎執行多種不同功能，使得理解看似不可能。

但如果我們訓練未糾纏的神經網路，擁有更多神經元，但每個神經元僅有數十個連接呢？那麼結果網路可能更簡單、更容易理解。這是我們工作的核心研究賭注。

秉持此原則，我們訓練語言模型，架構與現有語言模型如 GPT-2 非常相似，僅有一小修改：我們強制模型絕大部分權重為零。這限制模型僅使用極少數可能的神經元間連接。這是簡單變更，我們主張這大幅解耦模型內部計算。

比較密集電路與稀疏電路的圖表。密集版本顯示兩列節點有許多互聯線條，而稀疏版本顯示相同佈局但連接較少、更具選擇性。

在正常密集神經網路中，每個神經元連接到下一層每個神經元。在我們的稀疏模型中，每個神經元僅連接到下一層少數神經元。我們希望這能使神經元及整體網路更容易理解。

評估可解釋性

我們希望測量稀疏模型計算解耦的程度。我們考慮各種簡單模型行為，並檢查是否能隔離負責每個行為的模型部分——我們稱之為電路。

我們手動策劃一套簡單演算法任務。對每個任務，我們將模型修剪至仍能執行任務的最小電路，並檢查該電路有多簡單。（詳情見我們的論文。）我們發現透過訓練更大、更稀疏的模型，能產生能力更強、電路更簡單的模型。

散點圖顯示模型能力（預訓練損失）在 x 軸，對可解釋性（修剪電路大小）在 y 軸。點代表不同大小與稀疏度的模型，顏色表示總參數數，標記大小表示非零參數數。箭頭標記右上方向為「更好」。

我們繪製模型的可解釋性對能力（左下更好）。對固定稀疏模型大小，增加稀疏度——將更多權重設為零——會降低能力但提升可解釋性。擴大模型大小會將此邊界向外移，暗示我們能建構既能力強又可解釋的大型模型。

為具體說明，考慮一個任務：訓練於 Python 程式碼的模型須以正確引號類型完成字串。在 Python 中，「hello」須以單引號結束，「hello」須以雙引號結束。模型可透過記住開啟字串的引號類型並在結尾重現來解決。

我們最具可解釋性的模型似乎包含精確實作該演算法的解耦電路。

圖表說明稀疏 Transformer 中的範例電路。顯示特定神經元與注意力頭如何回應如「(」與「circuits」等輸入權杖啟動，標註正負權重、乘法、非線性及 MLP 與注意力層間連接路徑，最終至輸出權杖機率。

稀疏 Transformer 中預測字串以單或雙引號結束的範例電路。此電路僅使用五個殘差通道（垂直灰線）、第 0 層兩個 MLP 神經元、第 10 層一個注意力查詢-鍵通道及一個值通道。模型 (1) 在一殘差通道編碼單引號、在另一編碼雙引號；(2) 使用 MLP 層轉換成偵測任何引號的一通道及分類單雙引號的另一通道；(3) 使用注意力運作忽略中間權杖、找到前引號並複製其類型至最終權杖；(4) 預測匹配的結束引號。

依我們的定義，上圖精確連接足以執行任務——移除模型其餘部分，此小型電路仍運作。它們也必要——刪除這些少數邊緣會使模型失效。

我們也檢視一些更複雜行為。這些行為的電路（如下所示變數綁定範例）較難完全解釋。即使如此，我們仍能達成相對簡單的部分解釋，這些解釋能預測模型行為。

圖表強調 Python 函式 get_neighbors 中稀疏 Transformer 範例電路。兩個 current = set() 指派被框起，彩色箭頭顯示哪些注意力頭（標註 Q/K/V 索引）啟動，將變數 current 每個出現連至迴圈中的使用。

另一範例電路，細節較少。為決定變數 current 的類型，一注意力運作在定義時將變數名稱複製至 set() 權杖，另一後續運作將類型從 set() 權杖複製至變數後續使用，讓模型推斷正確下一個權杖。

未來之路

此工作是朝更大目標邁出的早期一步：使模型計算更容易理解。但還有很長的路要走。我們的稀疏模型遠小於前沿模型，其計算大部分仍未解釋。

下一步，我們希望將技術擴展至更大模型，並解釋更多模型行為。透過列舉具能力稀疏模型中更複雜推理的底層電路基序，我們能發展理解，幫助更好地針對前沿模型調查。

為克服訓練稀疏模型的低效率，我們看到兩條前進路徑。一條是從現有密集模型提取稀疏電路，而非從頭訓練稀疏模型。密集模型在本質上比稀疏模型更有效部署。另一路徑是開發更有效訓練可解釋性模型的技術，可能更容易投入生產。

請注意，此處發現並非保證此方法能延伸至更強大系統，但這些早期結果令人振奮。我們的目標是逐步擴大我們能可靠解釋的模型部分，並建構使未來系統更容易分析、除錯與評估的工具。

透過稀疏電路理解神經網路

分享短網址