2025 年 11 月 13 日
研究發表我們訓練模型以更簡單、更可追蹤的步驟思考——這樣我們就能更好地理解它們的運作方式。
閱讀論文神經網路驅動著當今最強大的 AI 系統,但它們仍然難以理解。我們並非以明確的逐步指示來撰寫這些模型。相反,它們透過調整數十億個內部連接(或稱「權重」)來學習,直到掌握任務。我們設計訓練規則,但並未設計出現的特定行為,結果形成一個密集的連接網路,沒有人類能輕易解讀。
我們對可解釋性的看法
隨著 AI 系統變得更強大,並對科學、教育和醫療保健等領域的決策產生真實世界影響,理解它們的運作方式至關重要。可解釋性指的是幫助我們理解模型為何產生特定輸出的方法。我們有許多方式可以實現這一點。
例如,推理模型被激勵在通往最終答案的過程中解釋其工作。思考鏈可解釋性利用這些解釋來監控模型行為。這立即就有用:目前推理模型的思考鏈似乎能反映如欺騙等令人擔憂的行為。然而,完全依賴此特性是一種脆弱策略,未來可能失效。
另一方面,本研究的焦點——機制可解釋性——旨在完全逆向工程模型的計算。到目前為止,它尚未立即有用,但原則上能提供模型行為更完整的解釋。透過在最細粒度層級解釋模型行為,機制可解釋性能做出較少假設,並給予我們更多信心。但從低階細節到複雜行為解釋的路徑更長、更困難。
可解釋性支持幾個關鍵目標,例如實現更好監督並提供不安全或策略性錯位行為的早期警示。它也補充我們的其它安全努力,如可擴展監督、對抗訓練和紅隊測試。
在本研究中,我們顯示可以經常以更容易解釋的方式訓練模型。我們視此工作為對密集網路事後分析的有前景補充。
這是一個非常雄心勃勃的賭注;從我們的工作到完全理解最強大模型的複雜行為,有很長的路要走。不過,對於簡單行為,我們發現使用我們方法訓練的稀疏模型包含小型、解耦的電路,這些電路既可理解且足以執行該行為。這暗示可能有一條可行的路徑來訓練我們能理解機制的大型系統。
新方法:學習稀疏模型
先前的機制可解釋性工作從密集、糾纏的網路開始,並試圖解開它們。在這些網路中,每個單獨神經元連接到數千個其他神經元。大多數神經元似乎執行多種不同功能,使得理解看似不可能。
但如果我們訓練未糾纏的神經網路,擁有更多神經元,但每個神經元僅有數十個連接呢?那麼結果網路可能更簡單、更容易理解。這是我們工作的核心研究賭注。
秉持此原則,我們訓練語言模型,架構與現有語言模型如 GPT-2 非常相似,僅有一小修改:我們強制模型絕大部分權重為零。這限制模型僅使用極少數可能的神經元間連接。這是簡單變更,我們主張這大幅解耦模型內部計算。
在正常密集神經網路中,每個神經元連接到下一層每個神經元。在我們的稀疏模型中,每個神經元僅連接到下一層少數神經元。我們希望這能使神經元及整體網路更容易理解。
評估可解釋性
我們希望測量稀疏模型計算解耦的程度。我們考慮各種簡單模型行為,並檢查是否能隔離負責每個行為的模型部分——我們稱之為電路。
我們手動策劃一套簡單演算法任務。對每個任務,我們將模型修剪至仍能執行任務的最小電路,並檢查該電路有多簡單。(詳情見我們的論文。)我們發現透過訓練更大、更稀疏的模型,能產生能力更強、電路更簡單的模型。
我們繪製模型的可解釋性對能力(左下更好)。對固定稀疏模型大小,增加稀疏度——將更多權重設為零——會降低能力但提升可解釋性。擴大模型大小會將此邊界向外移,暗示我們能建構既能力強又可解釋的大型模型。
為具體說明,考慮一個任務:訓練於 Python 程式碼的模型須以正確引號類型完成字串。在 Python 中,「hello」須以單引號結束,「hello」須以雙引號結束。模型可透過記住開啟字串的引號類型並在結尾重現來解決。
我們最具可解釋性的模型似乎包含精確實作該演算法的解耦電路。
稀疏 Transformer 中預測字串以單或雙引號結束的範例電路。此電路僅使用五個殘差通道(垂直灰線)、第 0 層兩個 MLP 神經元、第 10 層一個注意力查詢-鍵通道及一個值通道。模型 (1) 在一殘差通道編碼單引號、在另一編碼雙引號;(2) 使用 MLP 層轉換成偵測任何引號的一通道及分類單雙引號的另一通道;(3) 使用注意力運作忽略中間權杖、找到前引號並複製其類型至最終權杖;(4) 預測匹配的結束引號。
依我們的定義,上圖精確連接足以執行任務——移除模型其餘部分,此小型電路仍運作。它們也必要——刪除這些少數邊緣會使模型失效。
我們也檢視一些更複雜行為。這些行為的電路(如下所示變數綁定範例)較難完全解釋。即使如此,我們仍能達成相對簡單的部分解釋,這些解釋能預測模型行為。
另一範例電路,細節較少。為決定變數 current 的類型,一注意力運作在定義時將變數名稱複製至 set() 權杖,另一後續運作將類型從 set() 權杖複製至變數後續使用,讓模型推斷正確下一個權杖。
未來之路
此工作是朝更大目標邁出的早期一步:使模型計算更容易理解。但還有很長的路要走。我們的稀疏模型遠小於前沿模型,其計算大部分仍未解釋。
下一步,我們希望將技術擴展至更大模型,並解釋更多模型行為。透過列舉具能力稀疏模型中更複雜推理的底層電路基序,我們能發展理解,幫助更好地針對前沿模型調查。
為克服訓練稀疏模型的低效率,我們看到兩條前進路徑。一條是從現有密集模型提取稀疏電路,而非從頭訓練稀疏模型。密集模型在本質上比稀疏模型更有效部署。另一路徑是開發更有效訓練可解釋性模型的技術,可能更容易投入生產。
請注意,此處發現並非保證此方法能延伸至更強大系統,但這些早期結果令人振奮。我們的目標是逐步擴大我們能可靠解釋的模型部分,並建構使未來系統更容易分析、除錯與評估的工具。