作者丨陳彩嫻
R1 之後,長思維鏈成為研究下一代基礎模型中 “推理”(Reasoning)能力的熱門方向。一方面,R1 證明了大模型深度思考的可行性;與此同時,儘管 R1 展現出了強大的性能,大模型推理的序幕實則才剛剛拉開。
此外,R1 在海外掀桌也給國內人工智慧的研究帶來一個顯著影響,即:越來越多的研究者敢於站在更高視角思考,提出前瞻引領的技術思想。螞蟻技術研究院自然語言處理負責人武威對推理的思考就是其中一個典型。
武威的本科與博士均畢業於北京大學數學科學學院。2011 年獲微軟學者後,他於 2012 年加入微軟亞洲研究院,歷任主管研究員、微軟小冰首席科學家。加入螞蟻前,他還曾任美團 NLP 中心負責人。
針對模型的推理,武威從數學出發,提出了許多與目前業內主流不同的聲音。
事實上,早在 OpenAI 發佈 o1 之前的 2023 年下半年,武威與團隊就已開始研究大模型的推理問題。武威指出,R1 的實現結果是令人興奮的,但同時他評價,長思維鏈推理未必最優,“因為這樣的模型維度太高、能量太高,以致表現不太穩定。”
實際上,物理與化學中的大量現象均表明,能量最小的結構才最穩定。因此,武威猜想,未來的推理模型可能是更低維、更穩定的人工智慧系統。如果說長思維鏈是系統 2,一些研究則顯示,在人的日常思考中,佔主導的往往是消耗更低的系統 1。
此外,當前的主流推理模型都出現推理結果正確、但推理過程出錯的現象。在長思維鏈的實現中,糾錯的成本也隨之增加。同樣以數學為例,武威指出:當推理模型發展到最後,思考過程或許比結果更重要;相比解決一個問題,模型在思考中發現新知識(如經典數學問題的新證法)是更有價值的——由此可見,深度思考還有很大的潛力。
如何設計一個能夠將系統 1 與系統 2、或快思考與慢思考高效結合的推理模型,成為大模型的下一個重要方向。而武威認為,從數學的角度出發,用一個優雅的數學模型去刻畫人工智慧的思維方式或許是終極解法;亦或者,自洽是所有推理系統的最終歸宿。
以下是 AI 科技評論與武威的對話:
論文連結:https://arxiv.org/pdf/1102.1808
AI 科技評論:現在圈內對於「推理」有各種各樣的定義,還有的觀點將 Reasoning 與 Inference 相混淆。
武威:對。根據我自己看的文獻,「推理」的定義最早能夠追溯到 2011 年。那一年,機器學習大佬 Leon Bottou 寫了一篇文章,叫「From Machine Learning to Machine Reasoning」。當時業內對「Reasoning」還沒有一個清晰的定義,Leon Bottou 就在這篇文章說,他認為「Reasoning」(推理)是「代數地操作已有的知識去解決新的問題」。
大家對系統 1 與系統 2 的認知基本已經達到共識,系統 1 的特點就是快、自發、沒有消耗,系統 2 是要把注意力分配給需要花費很大努力的行為與心理活動上。這是作者丹尼爾·卡尼曼認為的快與慢的區別。不過這本書裡,我覺得更有趣的是,作者寫了他認為快思考與慢思考如何協調的問題。
第一個觀點是,書中提到,其實人在每日思考的過程中大部分時間都是系統 1 的快思考佔主導。
快思考會產生非常多且複雜的 idea pattern(觀點模式),並將這些傳遞給系統 2。而大部分情況下,系統 2 不經思考就接受了、而不是每個 idea 都檢查一遍。所以日常的思考大多是系統 1 的結果,系統 2 是懶惰的、只有在個別情況下才會去檢查與思考。同時,系統 1 因為想得快,會有很多錯誤,而且還會為這個錯誤提供一些更深層次的洞見。
那為什麼會有錯誤?就像今天大模型為什麼會有幻覺?我覺得可以作為對大模型幻覺的一個解釋。說白了還是能量最低,因為系統 1 要追求“認知的簡便”(Cognitive Ease)——當我把這些資訊跟我的認知整合在一起時,通順、自洽就可以了,至於有沒有錯,系統 1 是不在乎的。
這是系統 1 喜歡幹的事情,這麼幹確實消耗低。然後這些錯誤又因為系統 2 比較懶、不怎麼查,所以導致這些結果被固化了下來。最後這類錯誤積累越來越多。這種錯誤的根源在於認知上的懶惰或簡便,很難避免,但很有意思的點是,作者說:那你又避免不了錯誤,人怎麼辦好呢?他說,最好的辦法是盡可能地發現什麼情況下容易出錯,然後對這些高風險情況盡量多思考。
最終,作者也沒有就如何發現高風險情況提出解法。他認為,許多情況下,人最後就是變成了活在一個自洽的世界裡,哪怕有錯誤、但只要自洽就好。
回到大模型。如果援引丹尼爾·卡尼曼的說法,大模型應該能將長推理與短推理結合在一起,合在一起可能是一個模型,也可能是兩個模型,關鍵在於兩個模型、或兩個系統怎麼調度。目前行業裡也還沒有特別優雅的方式,比較優雅的方式應該是自動分配兩種模式。
AI 科技評論:您提到了核心問題,就是系統 1 與系統 2 怎麼結合起來?單一的 Transformer 架構可以實現嗎?這塊似乎也還沒有共識。
武威:我認為是還沒有一個很好的模型、或者沒有一個很好的 Equation(公式)來解決這個問題,所以大家都還在做一些嘗試。比如把長思維鏈和短思維鏈的數據混合在一起做 SFT,這可能是一種解決方案。或者在強化學習上做長度的 Reward(獎勵)。
但是,它們都還沒有一個模型去刻畫快思考與慢思考,或者說系統 1 與系統 2 之間的協作。
我覺得歸根結底還是要有一個模型、最好是一個數學模型去刻畫人工智慧的思維方式。我的猜想是,這個模型很可能是在低維空間上的一個模型,通過將能量最低進行優化來實現。
AI 科技評論:那接下來,您計劃從哪些角度進一步研究模型的推理問題?
武威:除了自回歸以外,我們也看先規劃、再推理這樣的層次化結構。
比如,要做一個使用者調研的方案,這個任務交給你之後,你是馬上就拿起筆來開寫嗎?不是的,正常情況下是腦海中先有一份草稿,有一個抽象的規劃,然後再去實現每個步驟。——你可以認為,這個抽象的規劃就是整個推理過程中的一個低維表示,在這個低維下我再說我怎麼把它展開變成一個高維的執行。這也是一種推理範式。
其實 Yann LeCun 每次採訪都在說,規劃與推理很重要。但同時,他又說,他覺得現在的推理模型好像不太對、因為太簡單了。至於什麼樣的推理模型是對的,LeCun 也沒說。
AI 科技評論:剛剛提到系統 1 與系統 2。業內也有一種討論,即我們在設計模型時是否一定要模仿人腦?
武威:說實話,我覺得機器不一定要像人一樣思考。這個問題其實也困擾了我很久,就是我們到底應不應該按照人腦的方式去設計人工智慧的模型。舉個例子,電腦能很快計算出 π 的值,但人腦就不行。
比如《思考,快與慢》這本書中,有大段對人的思維方式的描述,但這些描述就一定是對的嗎?大家確實可以通過一些事實去印證書中的說法,但還是這個問題:你不能說第 1 個 case 是對的,第 2 個、第 3 個、第 4 個……到第 100 個也都是對的,第 101 個 case 就一定正確。
這在數學上是不成立的,數學不允許這種情況出現。如果有例外,數學就一定要有一個條件去約束、將這個例外抹掉。換句話說,不完全歸納法是不對的。
所以我想來想去,最後我的觀點是,不管人工智慧系統到底應不應該像人,我只要想辦法去接近這個目標就好了。這個目標就是我剛才說的 8個字:多快好省,雙商齊備。
AI 科技評論:現在的推理還有一個問題,就是有研究發現,o1、R1 與 Gemini 等模型在做推理時,更重視結果的正確率,中間的推理過程可能是錯的。
武威:關於這個現象,我有兩個觀點。第一個觀點是:我認為長思維鏈是以一種相對笨拙的方式實現了深度思考。當然,它非常有意義,因為它起碼給出了一個實現,即使這個實現是高能耗的。我們不能天天空談深度思考、卻沒有任何實現。
第二個觀點是,當模型的能力發展到最後,思考的過程可能比結果更重要。因為我們回到數學來看,其實很多數學問題已經有結果了,只是有些結果被證實了、有些沒被證實。
比如費馬定理,最早叫費馬猜想,它的結果早就有了,就是當整數 n>2 時,方程 x 的 n 次方加 y 的 n 次方等於 z 的 n 次方沒有正整數解。黎曼猜想也是,早就有結果了,重要的是:你怎麼得到從這個假設到這個結論的整個求解過程。從數學的角度看,推理過程是非常重要的。
所以 Andrew Wiles 的巨大貢獻,一方面是他證明了費馬猜想,將費馬猜想變成費馬定理;更重要的是,在這個證明過程中,數學的許多新興方向誕生,比如橢圓曲線、代數幾何等等,這對數學界是巨大的貢獻。
在我看來,推理是利用邏輯對知識進行有機組合。如果我們在不同的問題上都能給出各種各樣的知識組合,那麼會不會有一些知識組合是人類未曾觸碰到的、對人類文明進步有非常大啟發的呢?如果有的話,那麼產生這些組合的價值遠比你解決一個問題還要大,因為你會創造出新的知識來。
從這個角度看,其實深度思考的巨大價值與潛力還沒有被挖掘出來。推理的結果很重要,但我更重視當中的思考過程。現在 R1 已經給我們提供了一個高維的實現,我們應該在 R1 的基礎上去做更大膽的迭代。
AI 科技評論:R1 出來後,有改變您對推理的看法嗎?您對推理的研究有更興奮嗎?
武威:我覺得還是很令人振奮的,因為R1 讓我們看到了深度思考的一種規模化實現,不過R1本質上仍然是自回歸,我覺得這裡面空間還是很大的。
我覺得應該有一個通用的模型,但我也不知道這個模型長什麼樣子。所以 2023 年我們剛開始研究推理的時候,是先研究 Agent。
為什麼是先研究 Agent 呢?就是因為我不知道通用的怎麼做,沒辦法,只能先做一個特殊的 Knowledge Agent(知識智能體),看能不能擴展。我們把一個任務拆成一個個模組,然後再把這些模組用人工設計的邏輯串在一起。
就好像我們在解一道數學題的時候,你不會解,怎麼辦呢?就先找一些具體的 case,加一些條件。比如一個泛函問題,你先把它變成二維空間,二維空間能證明、再看三維空間能不能證明;當二維、三維都證明之後,再看中間有沒有共性、能不能拓展到高維。
R1 令人驚豔的地方是直接就到高維了。我覺得更令人興奮的地方在於通過深度思考來創造新的知識,那這一點 R1 還達不到,因為還沒有辦法保證思考過程是對的。我們也還沒有辦法保證我們的推理過程一定是對的,但我覺得這是一個很重要的問題。
後來我們又探索了 CodePlan,希望用程式碼實現先規劃、後推理。只是我們當時做完後,受限於一些資源問題,沒有辦法驗證它的效果是最好的。今年年初 DeepSeek 團隊有一個工作,也是先用程式碼做規劃,不同的是他們後來又將程式碼變成了自然語言。我猜測可能是因為純程式碼的效果不太好。
最近我們又研發了 PromptCoT,嘗試將深度思考用到問題合成上,也看到了非常驚豔的效果。一個 7B 小模型就可以和 32B 模型比肩。最重要的是,這個工作讓我們看到了深度思考 for 其它任務的可能性。
其實大家都在想,到底下一代推理模型應該是什麼樣的,同時又希望追求智慧極限。這兩個目標都很難,特別是對企業來說。在企業裡,你不太可能說,你有一個非常大的目標、要投入多少資金,還不能確定這個目標能不能達到,這是一個現實問題。理性來說,我們需要更多的 case 去支撐繼續探索的信念。
未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!
公眾號轉載請先在「AI科技評論」後台留言取得授權,轉載時需標注來源並插入本公眾號名片。
為什麼中國只有一個 DeepSeek?
基座大模型「六進二」:南階躍,北智譜
復盤曠視十三年:高光、谷底與重生