大力出奇蹟失效了嗎?ModelSwitch 跳出取樣黑洞,改寫大型模型推論範式

圖片

在大型語言模型(LLM)快速發展的今日,如何進一步提升其效能,成為了研究者們關注的焦點。現在許多工作基於「重複取樣-投票」框架,在測試時進行大量取樣以提高回答的準確性,有時一個問題甚至需要取樣成百上千次,這帶來巨大的計算開銷。我們不禁要問:我們真的需要那麼多次取樣嗎?

本文介紹的 ModelSwitch 策略,正是在效能和效率間尋找一個平衡點。它放棄一味增加單一模型的取樣次數,而是巧妙地將取樣預算分配給多個 LLM,利用它們之間潛在的互補優勢。

圖片

▲ 圖1. ModelSwitch 與 Self-Consistency 在 Math 和 MathBench 資料集上的效能比較

如圖 1 所示,在 MATH 資料集上,ModelSwitch(使用 GPT-4o mini 和 Gemini 1.5 Flash 的組合)僅僅透過 35 次取樣便達到了 81% 的準確率,這一成績不僅優於其中較強的 Gemini 1.5 Flash 單獨採用 Self-Consistency 方法透過多達 512 次取樣才達到的 79.8% 準確率,更在計算效率上實現了高達 14 倍的提升!

在 MathBench 資料集上,ModelSwitch(使用 Gemma-2-9B-It 和 Llama-3.1-8B-Instruct 的組合)僅用 48 次取樣就達到了 75% 的準確率,優於其中較強的 Gemma-2-9B-It 單獨採用 Self-Consistency 方法在 512 次取樣下達到的 73.7% 準確率,效率同樣提升了 10 倍。

圖片

論文標題:

Do We Truly Need So Many Samples? Multi-LLM Repeated Sampling Efficiently Scales Test-Time Compute

論文連結:

https://arxiv.org/abs/2504.00762

專案程式碼:

https://github.com/JianhaoChen-nju/ModelSwitch

圖片

ModelSwitch 演算法機制詳解

ModelSwitch 的核心機制是什麼呢?答案是利用模型生成答案的一致性作為訊號,在不同模型間進行智慧切換。這一設計則是基於一項關鍵的經驗性觀察:一個模型的準確性,往往與其生成答案時表現出的一致性緊密相關。

可以想像,當一個模型面對某個問題,給出的答案五花八門、高度不一致時,這通常意味著它對這個問題「心中無數」,正確的可能性自然不高。

ModelSwitch 捕捉到這種不確定的訊號後,並不會繼續強求目前模型,而是果斷地切換到另一個 LLM,期待下一個模型可能知道前一個模型不知道的東西。如果後續模型能夠給出高度一致的答案,那麼獲得正確解的機率便會大大增加。

圖片

▲ 圖2. ModelSwitch 在兩個 LLM 間工作的示意圖

參照圖 2,ModelSwitch 演算法在執行時會讓多個 LLM 依次生成預先分配取樣數量的答案。如果目前模型給出的所有答案完全一致,那麼演算法會自信地採納這個答案,並提前終止整個流程,從而後續模型的計算開銷得以節省。

但如果答案不一致,演算法會轉交給下一個模型繼續取樣,直至尋找到某個模型能生成完全一致的答案;若沒有模型能產生完全一致的答案,或者所有模型都已取樣,則彙總所有模型的答案。

這種動態切換不僅旨在提升最終答案的準確性,更重要的是,它同時顯著降低不必要的計算成本。在彙總答案時,ModelSwitch 採用了一種加權投票演算法。

圖片

加權投票演算法綜合考量了兩個維度的權重:一是各模型對目前查詢給出答案時自身的一致性,透過答案分佈的熵來計算,一致性越高,熵越低,權重則越高。二是模型自身的先驗效能。這樣的設計確保了既能動態捕捉模型在特定問題上的信心,又能顧及模型歷史的表現。

圖片

效能評估

那麼,ModelSwitch 在更廣泛的實際測試中表現如何呢?研究團隊在多達七個涵蓋數學推論(GSM8K, MATH, AIME24)、常識及特定領域知識理解(MMLU-Pro)、符號推論(DATE)及多語言任務(MGSM)等多樣化挑戰的資料集上對 ModelSwitch 進行了廣泛而嚴格的評估。

實驗採用了多種閉源 LLM 包括 GPT-4o mini、Gemini 1.5 Flash、Claude 3 Haiku、GPT-4o、Gemini 1.5 Pro,以及多種開源 LLM 包括 Llama-3.1-8B-Instruct、Gemma-2-9B-It、Qwen2.5-7B-Instruct、Llama-3.1-70B-Instruct。

主要對比了單 LLM 重複取樣-投票方法 Self-Consistency 和多種先進多智慧體辯論方法包括 MAD、ChatEval、AgentVerse、MOA。

實驗結果的多項關鍵發現凸顯了 ModelSwitch 的價值:

首先,一項貫穿所有實驗的基礎性發現是:模型生成答案的一致性(以熵衡量,熵越低,一致性越大)與最終答案的準確性之間,存在著普遍且強烈的正相關關係。

圖片

▲ 圖3. 六種常見 LLM 在 MATH 和 MathBench 上的答案的一致性(熵)和準確性之間的相關性

其次,在與單模型 Self-Consistency 的較量中,ModelSwitch 展現了效能和效率的雙重優勢。如圖 4 所示,在所有資料集上,ModelSwitch 使用兩個 LLM(Gemini 1.5 Flash 和 GPT-4o mini)做切換的效果均超越單模型 Self-Consistency。

例如,在取樣預算從 1 提高到 16 次時,ModelSwitch 在 MathBench 上的效能提升了 7 個百分點(從 72.7% 提升到 79.7%),顯著超過了 Self-Consistency 為單模型帶來的提升:Gemini 1.5 Flash 的 2.6 個百分點(從 72.7% 提升到 75.3%)和 GPT-4o mini 的 1 個百分點(從 71.7% 提升到 72.7%)。

與此同時,ModelSwitch 平均能節省 34% 的取樣次數,從而大幅降低 API 調用成本與計算消耗。此外,較小模型的組合透過 ModelSwitch 能夠超越單個更大參數模型的效能。例如在 GSM8K 上 ModelSwitch 同時超越了更大的模型 GPT-4o 和 Gemini 1.5 Pro。

圖片

▲ 圖4. 使用 GPT-4o mini 和 Gemini 1.5 Flash 組合的 ModelSwitch 和兩種模型單獨使用 Self-Consistency 的效能比較

再者,面對主流的多智慧體辯論方法,ModelSwitch 同樣綜合表現更優。如圖 5 所示,在統一設定為 15 次的公平取樣預算下,ModelSwitch 在多個資料集上的效能超越了其他五種複雜的多智慧體辯論框架。

尤其在極具挑戰性的 MMLU-Pro 資料集上,ModelSwitch 的準確率達到了 63.2%,這比表現最佳的單個 LLM(53% )足足高出了 10.2 個百分點,並且顯著優於 MAD(47.6%)和 MOA(52.6%)。

這背後的原因在於,ModelSwitch 採用簡潔的切換機制,有效避免了在複雜的多智慧體互動過程中可能出現的錯誤傳播問題。

圖片

▲ 圖5. ModelSwitch 和多智慧辯論方法的效能對比

圖片

影響 ModelSwitch 效能的因素分析

實驗還探究了 LLM 數量與排列順序對 ModelSwitch 效能的影響。如圖 6 所示,效能提升最為顯著的階段通常發生在 LLM 數量從一個增加到兩個時。若繼續增加 LLM 的數量,帶來的收益可能會遞減,效能可能趨於平穩或略有下降。

這啟示我們,為 ModelSwitch 選擇少數幾個(通常是兩個)效能相當且具有多樣性的 LLM 組合,往往是達到最佳效果的關鍵。

至於模型的排列順序,按從強到弱的順序排列通常能透過盡早達成一致來提高整體效率,但 ModelSwitch 對模型順序表現出了較好的魯棒性,即使是從弱到強的排列,最終效能也未出現急劇下降。

圖片

▲ 圖6. 模型數量和順序對 ModelSwitch 的效能影響

最後,ModelSwitch 還能與更強大的驗證機制有效結合,實現效能的進一步飛躍。如圖 7 所示,當 ModelSwitch 與基於 Qwen2.5-MATH-RM-72B 這類高效能獎勵模型的 Best-of-N 選擇策略(簡稱 RM-BoN)相結合時,其效能得到了進一步提升。

在 MATH 資料集上,結合 RM-BoN 後的準確率從多數投票的 80% 提升到了 84%。並且,ModelSwitch+RM-BoN 的組合依然能夠優於最佳的單個 LLM 結合 RM-BoN 的策略。

圖片

▲ 圖7. ModelSwitch 和單模型結合獎勵模型作為驗證機制的效能對比

圖片

論文總結

ModelSwitch 是一種無需額外訓練或複雜模型融合的簡單、高效策略。它透過基於答案一致性的動態模型切換機制,巧妙地利用了多個 LLM 在測試計算時的互補優勢,在多種基準測試中顯著提升了整體效能和計算效率。

該方法的核心機制基於模型答案一致性與準確性之間強相關性的經驗觀察,並得到了堅實的理論分析支持。

總的來說,ModelSwitch 為如何有效擴展大型語言模型在推論時的計算能力,提供了一個簡單普適且卓有成效的解決方案。

更多閱讀

圖片

圖片

圖片

圖片

#投稿通道#

讓你的文字被更多人看到

如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。

總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。

PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。

📝 稿件基本要求:

• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註

• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式發送,要求圖片清晰,無版權問題

• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算

📬 投稿通道:

• 投稿郵箱:hr@paperweekly.site

• 來稿請備註即時聯繫方式(微信),以便我們在稿件選用的第一時間聯繫作者

• 您也可以直接添加小編微信(pwbot02)快速投稿,備註:姓名-投稿

圖片

△長按添加PaperWeekly 小編

🔍

現在,在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關注」訂閱我們的專欄吧

圖片

主標籤:大型語言模型最佳化

次標籤:取樣策略深度學習模型整合計算效率


上一篇:下一代AI只需20瓦就能運作?科學家瞄準「類腦運算」

下一篇:AI Can Read Between the Prompts! Vibe Coding: Regular User vs. Programmer – Cambridge's Latest Report

分享短網址