從短影片到 AI 模型,人們消費內容的習慣又一次向追求效率改變。
在閱讀長文、論文或海量資訊時,越來越多的人不再耐心從頭到尾瀏覽,而是傾向於直接獲取高密度、快速可吸收的知識。讓大模型直接來一段總結──比如評論區一句「@元寶,總結一下」──已經成為一種普遍的做法。
這並不是說有什麼不好。這恰恰說明在 AI 時代,高效獲取資訊本身就是人類能力的一次躍遷。
甚至連 AI 領域的大佬們也不例外。前 OpenAI 聯合創辦人、特斯拉 AI 總監 Andrej Karpathy 也一樣。他在前幾天發推,說自己「開始養成用 LLM 閱讀一切的習慣」。
這和大多數人的閱讀習慣非常相似,結合自己閱讀的感悟和大模型的資訊總結,我們能夠形成一系列更完善的認知。
當然了,大語言模型有那麼多,在獲取資訊、整理觀點時面對不同類型的內容,其能力也是參差不齊。為了獲取更加高品質的結果,Karpathy 毅然決定,讓最新最強的四家大模型一起幹活。
於是,Karpathy 在週六用氛圍編程做了個新的專案,讓四個最新的大模型組成一個 LLM 議會,給他做智囊團。
他認為:与其把問題單獨問給某一家你最愛的 LLM 服務提供商,不如把牠們都組建成一個屬於你的「LLM 議會」。
這個 LLM 議會是一個 Web 應用程式,介面看起來和 ChatGPT 一模一樣,但每次用戶提問其實會經歷以下流程:
1)問題會被分發給議會中的多個模型(透過 OpenRouter),比如目前是:
• openai/gpt-5.1
• google/gemini-3-pro-preview
• anthropic/claude-sonnet-4.5
• x-ai/grok-4
2)然後所有模型都能看到彼此匿名處理過的回答,並對這些回答進行審閱和排名;
3)最後,一個「主席模型(Chairman LLM)」會把這些內容作為上下文,生成最終回答。
這個事儿看起來非常眼熟,和知名遊戲部落客 PewDiePie 用氛圍編程做的「大模型委員會」簡直心有靈犀。
具體來說,他使用 8 個配置了不同提示詞(因此性格不同)的同一模型(gpt-oss-20b)組成了委員會。當 PewDiePie 提問時,每個模型都會給出一個答案,然後牠們又會對答案進行投票,從中選出最好的答案。
而 Karpathy 這個專案則是使用了不同的大模型進行,更加多樣化。
把多個模型的回答並排放在同一個問題下看,是一件很有意思的事情。尤其是加入了多個大模型之間的相互評價和投票機制後,簡直是一場全新的「賽博鬥蟋蟀」。
很多時候,這些模型竟然願意承認別家的回答比自己的更好,使得這個流程成為一種非常有意思的模型評估方式。
比如,Karpathy 和「LLM 議會」一起讀書時,牠們一致稱讚 GPT 5.1 是表現最好、洞見最豐富的模型,而始終把 Claude 排在最後,中間則是其他模型浮動。但 Karpathy 卻不完全認同這種排序──比如從主觀感受上,GPT 5.1 對他來說稍微有點囉嗦、鋪陳太多,而 Gemini 3 更凝練、處理得更好。Claude 在這個領域又顯得過於簡潔。
誰不喜歡看大模型之間的辯論呢?
具體而言,整個專案有三個步驟:
Stage 1:首次意見
用戶的提問會被單獨發給議會中的所有模型,並收集牠們的回答。所有回答將以「標籤頁視圖」展示,讓用戶可以逐個查看。
Stage 2:互評
每個 LLM 會看到其他模型的回答。後台會將模型身份匿名化,以避免模型「偏袒自己」或偏好某個特定模型。每個 LLM 會被要求基於準確性與洞察力對其他回答進行排名。
Stage 3:最終回答
被指定為「議會主席」的 LLM 會接收所有模型的回答與排名,並把這些資訊整理成一個最終輸出,呈現給用戶。
有網友認為,這種形式最終可能成為一種基準測試:
話雖如此,LLM 議會的資料流設計可能還有一整片未被探索的設計空間。多模型集成的構建方式可能還遠未被充分研究。
如果大家也對這個專案感興趣,Karpathy 已經將該專案開源。
• 專案地址:https://github.com/karpathy/llm-council
但提醒一下:Karpathy 不會對這個專案提供任何支持,它是原樣提供的、為其他人提供靈感的小工具,他也不打算繼續改進它。
我們在之前的測試中,也用氛圍編程的方法復刻了一個差不多的專案,和 Karpathy 的 LLM 議會略有相似,使用了兩個不同的模型部署。
或許我們也可以把這個小專案開源出來讓大家玩一玩?
參考連結: