Karpathyが大規模モデル「議会」を組織、GPT-5.1、Gemini 3 Proなどが最強の智囊団に

短編動画からAIモデルへ、人々のコンテンツ消費習慣が再び効率追求へとシフトしています。

長文、論文、海量の情報を読む際、ますます多くの人が最初から最後まで辛抱強く閲覧するのをやめ、高密度で迅速に吸収可能な知識を直接得る傾向にあります。大モデルに直接要約をさせる──例えばコメント欄で「@元宝、要約して」といった一文──が一般的な手法となっています。

これが悪いわけではありません。まさにAI時代において、効率的な情報取得自体が人類能力の飛躍を示しています。

AI分野の大物たちでさえ例外ではありません。元OpenAI共同創業者でTesla AIディレクターのAndrej Karpathyも同様です。彼は数日前ツイートで、「LLMを使ってすべてを読む習慣を始めました」と述べました。

これは大多数の人の読書習慣と非常によく似ています。自身の読書感想と大モデルの情報要約を組み合わせ、より完全な認知を形成できます。

もちろん、大規模言語モデルは数多く、情報取得や观点整理において異なるコンテンツタイプで能力にばらつきがあります。高品質な結果を得るため、Karpathyは最新最強の4つの大モデルを一緒に働かせることを決断しました。

そこで、Karpathyは土曜日に雰囲気プログラミングで新しいプロジェクトを作成し、最新の4つの大モデルをLLM議会として組織し、彼の智囊団としました。

彼は考えます：お気に入りのLLMサービス提供者に単独で質問するより、それらをすべてあなたの「LLM議会」に組む方が良い。

このLLM議会はWebアプリケーションで、インターフェースはChatGPTと全く同じですが、ユーザーの質問ごとに以下のプロセスを経ます：

1）質問が議会内の複数モデルに分配（OpenRouter経由）、現在は例えば：

• openai/gpt-5.1

• google/gemini-3-pro-preview

• anthropic/claude-sonnet-4.5

• x-ai/grok-4

2）すべてのモデルが互いの匿名化された回答を見て、レビューとランキングを行います；

3）最後に、「議長モデル（Chairman LLM）」がこれらをコンテキストとして最終回答を生成します。

これは非常に馴染み深く、有名ゲームブロガーのPewDiePieが雰囲気プログラミングで作った「大モデル委員会」と心が通じ合います。

具体的には、彼は異なるプロンプト（性格違い）で設定した同一モデル（gpt-oss-20b）の8つで委員会を構成。PewDiePieが質問すると、各モデルが回答し、それらを投票で最高のものを選びます。

Karpathyのプロジェクトは異なる大モデルを使い、より多様です。

同じ質問に対する複数モデルの回答を並べて見るのは面白い。特に複数大モデル間の相互評価と投票メカニズムを加えると、全く新しい「サイバークリケット闘」になります。

多くの場合、これらのモデルは他社の回答が自分より優れていると認め、このプロセスを興味深いモデル評価法にしています。

例えば、Karpathyが「LLM議会」と本を読む時、皆GPT 5.1を最高のパフォーマンスと洞察豊かなモデルと称賛し、Claudeを常に最後、他を中間変動としますが、Karpathyは完全に同意せず──主観的にGPT 5.1は冗長で広がりすぎ、Gemini 3の方が凝縮され良く処理、Claudeはこの分野で簡潔すぎます。

大モデル間の討論を見るのを誰が嫌がるでしょう？

具体的には、プロジェクトは3段階です：

Stage 1：初回意見

ユーザーの質問が議会内全モデルに個別に送られ、回答を集め。「タブビュー」で逐一確認可能。

Stage 2：相互評価

各LLMが他モデルの回答を見る。バックエンドでモデルID匿名化し、自己偏りや特定モデル偏愛を避け、正確性と洞察力でランキング。

Stage 3：最終回答

指定「議会議長」LLMが全回答とランキングを受け、整理して最終出力をユーザーに提示。

あるネットユーザーは、この形式が最終的にベンチマークテストになると考えています：