新書《Reasoning From Scratch》第一章釋出,Sebastian Raschka 談 LLM 推理、模式匹配和基礎訓練

選自 Ahead of AI

作者:Sebastian Raschka

機器之心編譯

推理模型發展正盛,著名 AI 技術博主 Sebastian Raschka 也正在寫一本關於推理模型工作方式的新書《Reasoning From Scratch》。在此之前,他已經出版了多本 AI 領域的著名書籍,包括《Build a Large Language Model (From Scratch)》、《Machine Learning Q and AI》、《Machine Learning with PyTorch and Scikit-Learn》。

近日,他在自己的博客上放出了這本書的第一章,為 LLM 領域的推理進行了入門級的介紹,同時還概述了推斷時間擴展和強化學習等技術方法。

機器之心編譯了這本書的第一章,以饗讀者。

(注:為了行文清晰,本文會將 inference 譯為「推斷」,將 reasoning 譯為「推理」;其中 inference 指模型根據輸入生成輸出的計算過程(如生成文本),而 reasoning 側重模型通過思維鏈等方法進行邏輯分析、因果判斷或問題解決的能力。)。

歡迎來到大型語言模型(LLM)的下一階段:推理(reasoning)。

LLM 已經改變了我們處理和生成文本的方式,但它們的成功主要得益於統計模式識別。然而,推理方法正在取得新進展,這些新技術能讓 LLM 處理更複雜的任務,例如求解邏輯難題或多步驟算術題。本書的核心便是理解這些方法。

本章將介紹的內容包括:

在 LLM 中,「推理」的具體含義;

推理與模式匹配的根本區別;

LLM 的傳統預訓練和後訓練階段;

提升 LLM 推理能力的關鍵方法;

為什麼從頭開始建構推理模型可以幫助我們理解它們的優勢、局限性和實踐中權衡。

1、在 LLM 中,「推理」究竟是什麼?

什麼是基於 LLM 的推理(LLM-based reasoning)?這個問題的答案和討論本身就足以寫成一本書。然而,本書與之不同,目標則是從頭開始實現 LLM 推理方法,因此會更注重實踐和親自動手程式設計,而不是概念層面上的推理。儘管如此,我認為簡要定義在 LLM 語境中所說的「推理」依然很重要。

因此,在後續章節轉向程式設計部分之前,我想在這本書的第一節定義 LLM 語境中的推理,以及它與模式匹配和邏輯推理的關係。這將為進一步討論 LLM 目前的建構方式、它們如何處理推理任務以及它們的優點和缺點奠定基礎。

在本書中,LLM 語境中的「推理」定義如下:

在 LLM 語境中,推理是指模型在提供最終答案之前產生中間步驟的能力。這個過程通常被描述為思維鏈(CoT)推理。在 CoT 推理中,LLM 會顯式地生成結構化的陳述或計算序列,以說明其得出結論的過程。

圖 1 展示了一個簡單的 LLM 多步驟(CoT)推理範例。

圖 1:LLM 處理一個多步驟推理任務的簡版範例。推理模型所做的並不是簡單回憶一個事實,而是將多個中間推理步驟組合起來得出正確的結論。根據實現方式的不同,中間推理步驟可能會展示給使用者,也可能不會。

從圖 1 中可以看到,LLM 產生的中間推理步驟看起來非常像一個人大聲表達內心的想法。然而,這些方法(以及由此產生的推理過程)與人類推理的相似度究竟如何仍是一個尚待解答的問題,本書也不會試圖回答這個問題。我們甚至不清楚這樣的問題是否可以得到明確解答。

相反,本書側重於解釋和實現能提升 LLM 的推理能力的技術,從而讓 LLM 更好地處理複雜任務。我希望透過上手實踐這些方法,你能更好地理解和改進那些正在開發中的推理方法,甚至探索它們與人類推理的異同。

注:LLM 中的推理過程可能與人類思維非常相似,特別是在中間步驟的表達方式上。然而,目前尚不清楚 LLM 推理是否在內部認知過程方面與人類推理相似。人類的推理方式通常是有意識地操控概念、直覺理解抽象關係或基於少數範例進行概括。相比之下,目前的 LLM 推理主要基於從訓練數據中的大量統計相關性中學習到的模式,而不是顯式的內部認知結構或有意識的反思。

因此,儘管推理增強型 LLM 的輸出看起來有點像人類,但其底層機制(很可能)存在很大差異,並且這也是一個活躍的探索領域。

2、LLM 訓練過程簡介

本節將簡要總結 LLM 的典型訓練方式,以便我們更好地理解它們的設計並了解它們的局限性。這一背景也將有助於我們討論模式匹配和邏輯推理之間的差異。

在應用任何的推理方法之前,傳統的 LLM 訓練通常分為兩個階段:預訓練和後訓練,如下圖 2 所示。

圖 2:典型 LLM 的訓練流程概述。一開始,初始模型使用隨機權重初始化,然後在大規模文本數據集上透過預測下一個 token 進行預訓練,以學習語言模式。然後,透過指令微調和偏好微調來最佳化模型,使 LLM 能夠更好地遵從人類指令並與人類偏好對齊。

在預訓練階段,LLM 要使用大量(可達數 TB)未標記文本進行訓練,其中包括書籍、網站、研究論文和許多其他來源。LLM 的預訓練目標是學習預測這些文本中的下一個詞(或 token)。

當使用 TB 級文本進行大規模預訓練時,目前領先的 LLM 往往會使用數千台 GPU 執行數月時間,還會花費數百萬美元資金,結果得到的 LLM 會非常強大。這意味著它們開始有能力生成與人類書寫的非常相似的文本。此外,在某種程度上,經過預訓練的 LLM 將開始表現出所謂的湧現屬性(emergent property),這意味著它們能執行未經明確訓練的任務,包括翻譯、程式碼生成等。

然而,這些預訓練模型僅僅是後訓練階段的基礎模型,後訓練階段會使用兩種關鍵技術:監督式微調(SFT,也稱指令微調)和偏好微調。後訓練的目的是讓 LLM 學會回應使用者查詢,如下圖 3 所示。

圖 3:語言模型在不同訓練階段的範例回應。圖中,提示詞要求總結睡眠與健康之間的關係。預訓練 LLM 給出了一個相關但沒有重點的答案,沒有直接遵從指令。指令微調版 LLM 生成了與提示詞一致的簡潔準確的總結。而偏好微調後的 LLM 更進一步改善了回應 —— 使用了友善的語氣和更有感召力的語言,使答案更具相關性和以使用者為中心。

如圖 3 所示,指令微調能提高 LLM 的個人助理類任務的能力,如問答、總結和翻譯文本等等。然後,偏好微調階段可完善這些能力。它有助於根據使用者偏好定製回應。此外,偏好微調也常被用於使 LLM 更安全。(一些讀者可能很熟悉基於人類回饋的強化學習(RLHF)等術語,它們是實現偏好微調的具體技術。)

簡而言之,我們可以將預訓練視為「原始語言預測」(透過下一 token 預測),它能為 LLM 提供一些基本屬性和生成連貫文本的能力。然後,後訓練階段可透過指令微調提高 LLM 的任務理解能力,並透過偏好微調讓 LLM 有能力建立具有特定風格的答案。

對 LLM 預訓練和後訓練階段細節感興趣的讀者可以參閱《Build A Large Language Model (From Scratch)》。而目前這本關於推理的書無需有關這些階段的知識 —— 你一開始就會獲得一個已經經過預訓練和後訓練的模型。

3、模式匹配:LLM 如何從數據中學習

LLM 在訓練時,會「閱讀」海量的文本數據,並學習如何根據前文預測下一個 token。它們是靠發現數據中的統計規律,而不是真正「理解」內容。所以,即使它們能寫出流暢、通順的句子,但本質上只是在模仿表面的關聯,而不是進行深入的思考。

目前大多數 LLM(比如 GPT-4o、Meta 的 Llama 3,除非專門訓練過推理能力)都是這樣工作的 —— 它們不會像人一樣一步步邏輯推理,而是根據輸入的問題,從訓練數據中找到最可能的答案。簡單來說,它們不是透過真正的邏輯推導來回答問題,更像是在「匹配」輸入和輸出的模式。

可以參考以下範例:

提示詞:德國的首都是……

回答:柏林

當 LLM 回答「柏林」時,它並不是透過邏輯推理得出的結論,而只是從訓練數據中記住了 「德國→柏林」這個高頻搭配。這種反應就像條件反射,我們稱為「模式匹配」—— 模型只是在復現學到的文字規律,並沒有真正一步步思考。

但如果遇到更複雜的問題呢?比如需要根據已知事實推導答案的任務?這時候就需要另一種能力:邏輯推理。

真正的邏輯推理,是指像解數學題一樣,根據前提一步步推出結論。它需要中間思考步驟,能發現前後矛盾,也能基於已定的規則判斷因果關係。這和單純「匹配文字關係」完全不同。

舉個例子:

所有鳥都會飛。企鵝是鳥。那企鵝會飛嗎?

如果是人類(或者真正會推理的系統),馬上就能發現不對勁 —— 根據前兩句看起來企鵝應該會飛,但大家都知道企鵝其實不會飛,這就矛盾了(如下圖 1.4 所示)

會推理的系統會立刻抓住這個矛盾,並意識到:要么第一句話說得太絕對(不是所有鳥都會飛),要么企鵝是個例外。

圖 4:前提矛盾導致的邏輯衝突示意圖。根據「所有鳥都會飛」和「企鵝是鳥」這兩句話,我們會推出「企鵝會飛」 的結論。但這個結論和已知事實「企鵝不會飛」直接衝突,這就產生了矛盾。

依靠於統計學習的 LLM 並不會主動辨識這種矛盾。它只是根據訓練數據中的文字規律來預測答案。如果在訓練數據中「所有鳥都會飛」這個說法出現得特別多,模型就可能會自信地回答:「是的,企鵝會飛。」

在下一節中,我們將用一個具體的例子看看 LLM 遇到這個「所有鳥都會飛.……」的問題時,實際上會怎麼回答。

4、模擬邏輯推理:LLM 如何在沒有顯式規則的情況下模仿推理邏輯

上一節我們說到,當遇到自相矛盾的前提時(比如「所有鳥都會飛,但企鵝不會飛」),普通 LLM 其實不會主動發現這些矛盾。它們只是根據訓練時學到的文字規律來生成回答。

現在讓我們看個具體例子(見圖 5):像 GPT-4o 這樣沒有專門加強推理能力的模型,遇到這個「所有鳥都會飛...」的問題時,會怎麼回答呢?

圖 5:語言模型(GPT-4o)如何處理矛盾前提的範例。

從圖 5 的例子可以看到,雖然 GPT-4o 並不是專門的推理模型(不像 OpenAI 其他專門開發了推理功能的版本,比如 o1 和 o3),但它在這個問題上卻給出了看似正確的回答。

這是怎麼回事?難道 GPT-4o 真的會邏輯推理嗎?其實不然,不過至少說明,4o 在它熟悉的場景中,能夠非常逼真地「裝」出邏輯推理的樣子。

其實 GPT-4o 並不會主動檢查說法是否自相矛盾。它的回答完全基於從海量數據中學到的「文字搭配機率」。

舉個例子:如果在訓練數據中,經常出現「企鵝不會飛」這樣的正確說法,模型就會牢牢記住「企鵝」和「不會飛」之間的關聯。就像圖 5 展示的,雖然 4o 沒有真正的邏輯推理能力,但靠著這種「文字機率記憶」,它也能給出正確答案。

簡單來說:它不是在用邏輯規則思考,而是靠「見得多了自然記住」的方式在回答問題。

簡單來說,模型之所以能「察覺」這個矛盾,是因為它在訓練時反覆見過類似的例子。這種能力完全來自於它在海量數據中學習到的文字規律 —— 就像我們常說的「熟能生巧」,見得多了自然就會了。

換句話說,就算像圖 5 裡那樣,普通 LLM 看似在進行邏輯推理,其實它並不是按照規則一步步思考,而只是在運用從海量訓練數據中學到的文字規律。

不過,ChatGPT 4o 能答對這個問題,恰恰說明了一個重要現象:當模型經過超大規模訓練後,它的這種「隱性規律匹配」能力可以變得非常強大。但這種基於統計規律的模式也存在明顯短板,比如遇到以下情況時就容易出錯:

遇到全新題型(訓練數據裡完全沒見過的邏輯問題)→ 就像讓一個只會刷題的學生突然碰到從沒見過的考題;

問題太複雜(需要環環相扣的多步推理)→ 類似讓計算器解一道需要寫證明過程的數學大題;

需要嚴格邏輯推導(但訓練數據中沒有類似案例)→ 好比讓背過範文的學生現場創作全新體裁的文章。

既然規則系統這麼靠譜,為什麼現在不流行了?其實在 80、90 年代,基於規則的系統確實很火,像醫療診斷、法律判決、工程設計這些領域都在用。直到今天,在一些性命攸關的領域(比如醫療、法律、航太),我們還是能看到它們的身影 —— 畢竟這些場合需要清晰的推理過程和可追溯的決策依據。但這種系統有個硬傷:它完全依賴人工編寫規則,開發起來特別費勁。相比之下,像 LLM 這樣的深度神經網路,只要經過海量數據訓練,就能靈活處理各種任務,適用性廣多了。

我們可以這樣理解:LLM 是透過學習海量數據中的規律來「裝」邏輯推理的。雖然它們內部並不執行任何基於規則的邏輯系統,但可以透過一些專門的最佳化方法(比如增強推理計算能力和後訓練策略)來進一步提升這種類比能力。

值得一提的是,LLM 的推理能力其實是一個漸進發展的過程。早在 o1 和 DeepSeek-R1 這類專業推理模型出現之前,普通 LLM 就已經能展現出類似推理的行為了 —— 比如透過生成中間步驟來得出正確結論。而現在我們所說的 「推理模型」,本質上就是把這種能力進一步強化和最佳化的結果,主要透過兩種方式實現:1. 採用特殊的推斷計算擴展技術,2. 進行針對性的後訓練。

本書後續內容將重點介紹這些提升大語言模型解決複雜問題能力的進階方法,幫助你更深入地理解如何增強大語言模型這種「隱性」的推理能力。

5、提升 LLM 的推理能力

大語言模型的「推理能力」真正進入大眾視野,是在 2024 年 9 月 12 日 OpenAI 發布 o1 的時候。在那篇官宣文章裡,OpenAI 特別提到

這些新版 AI 不像以前那樣秒回,而是會像人類一樣先琢磨幾秒,確保答案更靠譜。

OpenAI 還特別說明:

這種強化過的思考能力,對解決科學、程式設計、數學等領域的複雜問題特別有幫助 —— 畢竟這些領域的問題,往往需要多轉幾個彎才能想明白。

雖然 o1 的具體技術細節沒有公開,但普遍認為它是在 GPT-4 等前代模型基礎上,透過「增強推斷計算能力」來實現更強的思考能力的。

幾個月後的 2025 年 1 月,深度求索公司發布了 DeepSeek-R1 模型和技術報告,詳細介紹了訓練推理模型的方法,引起了巨大轟動。因為:

他們不僅免費開源了一個效能媲美甚至超越 o1 的模型;

還公開了如何開發這類模型的完整方案。

本書將透過從零實現這些方法,帶你看懂這些提升 AI 推理能力的技術原理。如圖 6 所示,目前增強大語言模型推理能力的方法主要可以分為三大類:

圖 6:提升大語言模型推理能力的三大方法。這三大方法(推斷計算增強、強化學習和知識蒸餾)通常是在模型完成常規訓練後使用的。所謂常規訓練包括:基礎模型訓練、預訓練、指令微調和偏好微調。

如圖 6 所示,這些增強方法都是用在已經完成上述常規訓練階段的模型上的。

推斷時間計算增強

推斷時間計算擴展(也叫推斷計算增強、測試時增強等)包含一系列在推理階段(即使用者輸入提示詞時)提升模型推理能力的方法,這些方法無需對底層模型權重進行訓練或修改。其核心思想是透過增加計算資源來換取效能提升,借助思維鏈推理(chain-of-thought reasoning)及多種採樣程序等技術,使固定參數的模型展現出更強的推理能力。

強化學習(RL)

強化學習是一類透過最大化獎勵訊號來提升模型推理能力的訓練方法。其獎勵機制可分為兩類:

廣義獎勵:如任務完成度或啟發式評分

精準可驗證獎勵:如數學問題正確答案或程式設計任務通過率

與推斷時間計算增強(inference-time compute scaling)不同,RL 透過動態調整模型參數(weights updating)實現能力提升。該機制使模型能夠基於環境回饋,透過試錯學習不斷最佳化其推理策略。

注: 在開發推理模型時,需明確區分此處的純強化學習(RL)方法與常規大語言模型開發中用於偏好微調的基於人類回饋的強化學習(RLHF)(如圖 2 所示)。二者的核心差異在於獎勵訊號的來源:RLHF 透過人類對模型輸出的顯式評分或排序生成獎勵訊號,直接引導模型符合人類偏好行為;純 RL 則依賴自動化或環境驅動的獎勵訊號(如數學證明的正確性),其優勢在於客觀性,但可能降低與人類主觀偏好的對齊度。典型場景對比:純 RL 訓練:以數學證明任務為例,系統僅根據證明步驟的正確性提供獎勵;RLHF 訓練:需人類評估員對不同輸出進行偏好排序,以最佳化符合人類標準(如表述清晰度、邏輯流暢性)的回應。

監督微調與模型蒸餾

模型蒸餾是指將高性能大模型習得的複雜推理模式遷移至更輕量化模型的技術。在 LLM 領域,該技術通常表現為:使用高性能大模型生成的高品質標註指令數據集進行監督微調(Supervised Fine-Tuning, SFT)。這種技術在 LLM 文獻中常統稱為知識蒸餾(Knowledge Distillation)或蒸餾(Distillation)。

與傳統深度學習的區別:經典知識蒸餾中,「學生模型」需同時學習「教師模型」的輸出結果和 logits,而 LLM 的蒸餾通常僅基於輸出結果進行遷移學習。

注:本場景採用的監督微調(SFT)技術與常規大語言模型開發中的 SFT 類似,其核心差異體現在訓練樣本由專為推理任務開發的模型生成(而非通用 LLM)。也因此,其訓練樣本更集中於推理任務,通常包括中間推理步驟。

6、從頭建構推理模型的重要性

自 2025 年 1 月 DeepSeek-R1 發布以來,提高 LLM 的推理能力已成為 AI 領域最熱門的話題之一。原因也不難理解。更強的推理能力使 LLM 能夠解決更複雜的問題,使其更有能力解決使用者關心的各種任務。

OpenAI CEO 在 2025 年 2 月 12 日的一份聲明也反映了這種轉變:

我們接下來將發布 GPT-4.5,即我們在內部稱之為 Orion 的模型,這是我們最後一個非思維鏈模型。在此之後,我們的首要目標是統一 o 系列模型和 GPT 系列模型,方法是打造可以使用我們所有工具、知道何時需要或不需要長時間思考並且可以廣泛用於各種任務的系統。

以上引文凸顯了領先的 LLM 提供商向推理模型的轉變。這裡,思維鏈是指一種提示技術,其能引導語言模型逐步推理以提高其推理能力。

另一點也值得一提,「知道何時需要或不需要長時間思考」也暗示了一個重要的設計考量:推理並不總是必要或可取的。

舉個例子,推理模型在設計上就是為了解決複雜任務設計的,如解決難題、高級數學問題和高難度程式設計任務。然而,對於總結、翻譯或基於知識的問答等簡單任務來說,推理並不是必需的。事實上,如果將推理模型用於一切任務,則可能效率低下且成本高昂。例如,推理模型通常使用起來成本更高、更冗長,有時由於「過度思考」更容易出錯。此外,這裡也適用一條簡單的規則:針對具體任務使用正確的工具(或 LLM 類型)。

為什麼推理模型比非推理模型成本更高?

主要是因為它們往往會產生更長的輸出,這是由於中間推理步驟解釋了得出答案的方式。如圖 7 所示,LLM 一次生成一個 token 的文本。每個新 token 都需要透過模型進行完整的前向傳遞。因此,如果推理模型產生的答案是非推理模型的兩倍長,則需要兩倍的生成步驟,從而導致計算成本增加一倍。這也會直接影響 API 使用成本 —— 計費通常基於處理和生成的 token 數量。

圖 7:LLM 中的逐個 token 生成。在每一步,LLM 都會取得迄今為止生成的完整序列並預測下一個 token—— 可能代表詞、子詞或標點符號,具體取決於 token 化器。新生成的 token 會被附加到序列中,並用作下一步的輸入。這種迭代解碼過程既用於標準語言模型,也用於以推理為中心的模型。

這直接凸顯了從頭開始實現 LLM 和推理方法的重要性。這是了解它們的工作方式的最佳方式之一。如果我們了解 LLM 和這些推理模型的工作原理,我們就能更好地理解這些權衡。

7、總結

LLM 中的推理涉及使用中間步驟(思維鏈)來系統地解決多步驟任務。

傳統的 LLM 訓練分為幾個階段:預訓練,模型從大量文本中學習語言模式;指令微調,可改善模型對使用者提示詞的回應;偏好微調,使模型輸出與人類偏好對齊。

LLM 中的模式匹配完全依賴於從數據中學習到的統計關聯,這可使得文本生成流暢,但缺乏明確的邏輯推理。

可以透過這些方式來提高 LLM 中的推理能力:推斷時間計算擴展,無需重新訓練即可增強推理能力(例如,思維鏈提示);強化學習,使用獎勵訊號顯式地訓練模型;監督微調和蒸餾,使用來自更強大推理模型的範例。

從頭開始建構推理模型可以提供有關 LLM 能力、局限性和計算權衡的實用見解。

以上就是 Sebastian Raschka 新書《Reasoning From Scratch》第一章的主要內容,可以說透過一些基礎介紹為這本書奠定了一個很好的基調。你對推理模型有什麼看法,對這本書有什麼期待嗎?

主標籤:大型語言模型

次標籤:AI研究模型訓練思維鏈機器學習


上一篇:打破常規:為什麼LLM的最終答案可能不靠譜?

下一篇:豆包繪畫模型 3.0:AI 繪圖門檻再降低

分享短網址