Karpathy 組建大模型「議會」，GPT-5.1、Gemini 3 Pro 等化身最強智囊團

從短影片到 AI 模型，人們消費內容的習慣又一次向追求效率改變。

在閱讀長文、論文或海量資訊時，越來越多的人不再耐心從頭到尾瀏覽，而是傾向於直接獲取高密度、快速可吸收的知識。讓大模型直接來一段總結──比如評論區一句「@元寶，總結一下」──已經成為一種普遍的做法。

這並不是說有什麼不好。這恰恰說明在 AI 時代，高效獲取資訊本身就是人類能力的一次躍遷。

甚至連 AI 領域的大佬們也不例外。前 OpenAI 聯合創辦人、特斯拉 AI 總監 Andrej Karpathy 也一樣。他在前幾天發推，說自己「開始養成用 LLM 閱讀一切的習慣」。

這和大多數人的閱讀習慣非常相似，結合自己閱讀的感悟和大模型的資訊總結，我們能夠形成一系列更完善的認知。

當然了，大語言模型有那麼多，在獲取資訊、整理觀點時面對不同類型的內容，其能力也是參差不齊。為了獲取更加高品質的結果，Karpathy 毅然決定，讓最新最強的四家大模型一起幹活。

於是，Karpathy 在週六用氛圍編程做了個新的專案，讓四個最新的大模型組成一個 LLM 議會，給他做智囊團。

他認為：与其把問題單獨問給某一家你最愛的 LLM 服務提供商，不如把牠們都組建成一個屬於你的「LLM 議會」。

這個 LLM 議會是一個 Web 應用程式，介面看起來和 ChatGPT 一模一樣，但每次用戶提問其實會經歷以下流程：

1）問題會被分發給議會中的多個模型（透過 OpenRouter），比如目前是：

• openai/gpt-5.1

• google/gemini-3-pro-preview

• anthropic/claude-sonnet-4.5

• x-ai/grok-4

2）然後所有模型都能看到彼此匿名處理過的回答，並對這些回答進行審閱和排名；

3）最後，一個「主席模型（Chairman LLM）」會把這些內容作為上下文，生成最終回答。

這個事儿看起來非常眼熟，和知名遊戲部落客 PewDiePie 用氛圍編程做的「大模型委員會」簡直心有靈犀。

具體來說，他使用 8 個配置了不同提示詞（因此性格不同）的同一模型（gpt-oss-20b）組成了委員會。當 PewDiePie 提問時，每個模型都會給出一個答案，然後牠們又會對答案進行投票，從中選出最好的答案。

而 Karpathy 這個專案則是使用了不同的大模型進行，更加多樣化。

把多個模型的回答並排放在同一個問題下看，是一件很有意思的事情。尤其是加入了多個大模型之間的相互評價和投票機制後，簡直是一場全新的「賽博鬥蟋蟀」。

很多時候，這些模型竟然願意承認別家的回答比自己的更好，使得這個流程成為一種非常有意思的模型評估方式。

比如，Karpathy 和「LLM 議會」一起讀書時，牠們一致稱讚 GPT 5.1 是表現最好、洞見最豐富的模型，而始終把 Claude 排在最後，中間則是其他模型浮動。但 Karpathy 卻不完全認同這種排序──比如從主觀感受上，GPT 5.1 對他來說稍微有點囉嗦、鋪陳太多，而 Gemini 3 更凝練、處理得更好。Claude 在這個領域又顯得過於簡潔。

誰不喜歡看大模型之間的辯論呢？

具體而言，整個專案有三個步驟：

Stage 1：首次意見

用戶的提問會被單獨發給議會中的所有模型，並收集牠們的回答。所有回答將以「標籤頁視圖」展示，讓用戶可以逐個查看。

Stage 2：互評

每個 LLM 會看到其他模型的回答。後台會將模型身份匿名化，以避免模型「偏袒自己」或偏好某個特定模型。每個 LLM 會被要求基於準確性與洞察力對其他回答進行排名。

Stage 3：最終回答

被指定為「議會主席」的 LLM 會接收所有模型的回答與排名，並把這些資訊整理成一個最終輸出，呈現給用戶。

有網友認為，這種形式最終可能成為一種基準測試：