在人工智慧領域,大型語言模型(LLM)的推理能力正以前所未有的速度發展。從年初 DeepSeek-R1、OpenAI o3、Qwen3 等推理模型的相繼問世,我們見證了模型在複雜推理任務中一次次令人驚嘆的表現,尤其是它們展現出的「啊哈時刻」,彷彿讓我們看到了模型接近人類思維的希望之光。今天,就讓我們一同探索這些模型背後的奧秘,從推理圖(reasoning graph)這一獨特視角,深入理解它們卓越推理性能的根源。
兩年前,當業界提出系統 2 慢思考的概念時,我曾思考如何將外部真實世界顯性的複雜思維鏈(如 CoT 或 long reasoning pattern)與模型內部隱空間(Latent Space)統一起來看待。當時提出過一個觀點:不論模型經過何種基於真實資料的有信號監督還是 RL(強化學習)自探索反饋訓練方法,其外部任何顯式的逐步推斷(step by step next token predict)所隱含的規劃、分解、反思等抽象模式,都能在模型內隱狀態空間中找到神經元激活模式的某種映射。這種映射或許是接下來所要介紹的這篇論文中所提及到的「推理圖」或「拓撲環」,亦或是其他隱狀態空間可視化方法,而這或許就是模型具備系統 2 慢思考能力的奧秘。
推理圖:打開模型「思維黑箱」的鑰匙
當我們面對模型給出的精彩推理結果時,不禁好奇:在那複雜的神經網路背後,模型究竟是如何思考的?近日,來自東京大學聯合 Google DeepMind 的研究者們的《Topology of Reasoning: Understanding Large Reasoning Models through Reasoning Graph Properties》這篇論文為我們提供了一個全新的視角 —— 推理圖。它就像是模型思考過程的可視化地圖。我們通過聚類模型在每個推理步驟中的隱藏狀態表示,確定推理圖中的節點。然後,將模型在推理過程中依序造訪的節點連接起來,就建構出了這張展現模型思考路徑的推理圖。
在數學任務中,推理圖可以被形象地理解為從問題初始狀態到最終答案狀態所經過的各個簡單計算狀態所連成的路徑,每個計算狀態對應圖中的一個節點。透過對推理圖的分析,我們能夠以一種直觀且系統的方式,洞察模型在推理過程中的內部機制和行為模式,從而深入理解其推理能力的本質。
循環性:模型的「反思」與「調整」
在對推理圖的研究中,一個引人注目的發現是大型推理模型展現出顯著的循環性。這些循環就像是模型在思考過程中的「反思」和「調整」時刻。與基礎模型相比,蒸餾後的推理模型(如 DeepSeekR1-Distill-Qwen-32B)每個樣本中平均多出約 5 個這樣的循環。隨著任務難度和模型容量的增加,這種循環性愈發明顯。
這種循環性暗示著模型在推理時並非一蹴可幾,而是會像人類一樣,頻繁地回過頭去重新審視之前的推理步驟,發現問題所在並進行修正。這種類似於人類「啊哈時刻」的自我修正能力,使得模型能夠不斷優化自己的推理路徑,從而提高推理的準確性。試想,當模型陷入一個複雜問題的思考時,這些循環就像是它不斷嘗試、反思、再嘗試的過程,最終在某個瞬間豁然開朗,找到正確的解答方向。
圖直徑:模型思考的「廣度」與「深度」
除了循環性,推理圖的直徑也是衡量模型推理能力的重要指標。研究發現,大型推理模型的推理圖直徑遠大於基礎模型,這表明它們在推理過程中能夠探索更廣泛的推理狀態。模型的思考不再局限於狹窄的路徑,而是能夠觸及更廣泛的領域,深入挖掘問題背後的各種可能性。
圖直徑的增大意味著模型具備了更廣泛的思考範圍,能夠觸及更遠的知識節點,在複雜的推理任務中展現出更靈活的思維能力和更強的解決複雜問題的能力。這就好比一個博學的學者,他的思維能夠在知識的海洋中自由馳騁,從不同的角度、不同的領域汲取靈感,從而更深入地理解問題並找到最佳的解決方案。
小世界特性:高效連接局部與全局知識
更令人興奮的是,大型推理模型建構的推理圖展現出顯著更高的小世界特性,約是基礎模型的 6 倍。小世界結構的獨特之處在於,它既具有密集的局部聚類結構,又能透過少量的長程連接實現全局的高效連通。在模型的推理過程中,這種小世界特性發揮著至關重要的作用。
一方面,密集的局部聚類結構使得模型能夠深入挖掘局部知識,對問題的特定方面進行細緻入微的分析;另一方面,少量的長程連接則為模型提供了快速切換和融合全局知識的能力。這種特性使得模型在推理時既能專注於細節,又能從整體上把握問題的關鍵,從而更高效地連接問題的不同部分,找到通往答案的最優路徑。
模型規模與推理圖:規模背後的能力提升
隨著模型規模的不斷增大,我們觀察到循環檢測率、循環計數以及推理圖直徑等指標呈現出不同的變化趨勢。循環檢測率先是在 14B 模型時達到峰值,而 32B 模型則在推理圖直徑上達到了最大值,並且與任務準確率呈現出正相關關係。
這說明模型容量的增加為推理圖結構的優化提供了堅實的基礎。更龐大的模型能夠容納更複雜的推理圖結構,從而支持更高級的推理過程。這就像是一座擁有更多房間和通道的建築,能夠為各種思維活動提供更廣闊的舞台,讓模型在複雜的推理任務中展現出更強大的能力。
監督微調:塑造推理圖的有力工具
監督微調(SFT)被證明是塑造推理圖結構的有效手段。透過在改進的資料集上進行監督微調,我們能夠系統地擴大推理圖直徑,並且性能提升與推理圖直徑的增加同步。這為我們建構和優化用於推理任務的資料集提供了極具價值的指導。
當我們在設計資料集時,不僅要關注資料的數量和品質,還要考慮資料是否能夠誘導模型產生具有更大直徑和更多循環的推理圖結構。透過精心設計的資料集,我們可以引導模型在推理過程中探索更廣泛的路徑,培養其反思和調整的能力,從而顯著提升模型的推理性能。
系統 2 慢思考與推理圖的關聯
回顧兩年前業界提出系統 2 慢思考的概念時,曾嘗試思考並關注如何將外部真實世界中顯性的複雜思維鏈(如 CoT 或 long reasoning pattern)與模型內部隱空間統一起來,以建立對推理模型更具直觀和統一的認知視角。結合本論文中所提及的「推理圖(reasoning graph)」正是對這一問題的有力探索。
系統 2 慢思考強調有意識、有邏輯的外部顯式深度思考過程,這與推理圖中所體現的循環結構和廣泛探索行為相契合。模型內隱空間在基於「推理圖」這種可視化方法中的循環,可能對應著系統 2 思考中的反覆斟酌、驗證和調整思路的過程,而較大的圖直徑則可能反映了系統 2 思考中對問題不同方面和相關知識的深入挖掘與廣泛聯想。
隱狀態映射與推理圖可視化
先前自己的觀點認為,不論模型基於真實資料的有信號監督、蒸餾 SFT 還是 RL 自探索獎勵反饋訓練方法,外部顯式的逐步推理所隱含的規劃、分解、反思等抽象模式,都能在模型內部隱狀態空間中找到神經元激活模式的映射。結合本論文中的推理圖建構方法,也可以說正是對這種映射的一種可視化手段。
透過將隱藏狀態聚類形成節點,並建構推理圖,我們可以將模型內部複雜的神經元激活模式轉化為直觀的圖結構,進而分析其與推理性能的關係。這種可視化方法為我們深入理解模型的內部推理機制提供了新的視角和工具,使我們能夠更直接地觀察模型在推理過程中的行為和特點,從而為進一步優化模型的推理能力提供依據。
結語
在這個人工智慧飛速發展的時代,《Topology of Reasoning: Understanding Large Reasoning Models through Reasoning Graph Properties》這篇論文為我們打開了一扇通往模型思維世界的大門。從循環性的「反思」與「調整」,到圖直徑所代表的思考「廣度」與「深度」,再到小世界特性所賦予的高效連接局部與全局知識的能力,這些大型推理模型正以一種前所未有的方式,展現著它們強大的推理力量。相信隨著時間推移和技術的不斷進步,我們會有更多更先進的理論和工具去探索大型推理模型的奧秘,進一步推動人工智慧領域的發展。
另外,儘管該論文取得了重要成果,但仍存在一些局限性。例如,雖然提出了推理圖的建構和分析方法,但對於如何根據推理圖的屬性來直接建構具有更優推理性能的模型,尚未給出足夠具體的指導。未來的研究可以從以下幾個方向展開:
一是進一步深入挖掘推理圖亦或其它模型隱空間可視化方法所表現出的更廣泛的潛在屬性和特性,以更全面地理解模型的推理機制,比如之前來自清華《TTRL: Test-Time Reinforcement Learning》這篇和來自 Google DeepMind 的《Boundless Socratic Learning with Language Games》這篇論文中所隱含的模型內隱狀態空間所具備的自演進能力的洞察。
以及近期引起熱烈爭論的那篇來自 UW/UC 的《Spurious Rewards: Rethinking Training Signals in RLVR》論文中關於對「Lucky」Spurious Rewards 的解釋。
二是探索如何基於推理圖或其它模型隱空間可視化方法的分析結果,設計出更有效的模型架構和訓練演算法,以更直接地提升模型的推理能力,比如模型結構如 Transformer 方面的創新、對不同模態資料所採用的不同概率建模方法(AR/Diffusion..)的指引。
三是結合認知科學和神經科學的相關理論和方法,從更廣泛的學科交叉角度來研究和優化模型的推理過程,使模型的推理能力更接近人類的智慧水平。
綜上所述,《Topology of Reasoning: Understanding Large Reasoning Models through Reasoning Graph Properties》這篇論文透過建構和分析推理圖,為揭示大型推理模型的內部工作機制提供了有力工具和重要見解。結合系統 2 慢思考等相關研究思路,我們有理由相信,對模型內部推理模式的深入探究將不斷推動自然語言處理領域在複雜推理任務方面取得更大突破,為實現更具人類水平智能的人工智慧系統奠定堅實基礎。
By 呂明