Claude 4はどのように考えるのか？シニア研究者が回答：RLHFパラダイムは過去のもの、RLVRはプログラミング/数学で実証済み

世界を驚かせたClaude 4、一体どのように考えているのだろうか？

Anthropicの2人の研究者による最新のブログインタビューで、多くの詳細が明らかになった。

この2日間、多くの人が試用し、ある人はたった一つのプロンプトでAPIとフロントエンドを含むブラウザエージェントを作り上げてしまい、大きな驚きを与えた。同時に、Claude 4が意識を持ち、悪事を働こうとしている可能性も報じられた。

これらの疑問に対し、シニア研究者のSholto DouglasとTrenton Brickenが一つ一つ答えた。

検証可能な報酬強化学習（RLVR）のパラダイムは、プログラミングと数学の分野で証明されている。これらの分野では、明確なシグナルが得られやすいからだ。

AIがノーベル賞を受賞する方が、ピューリッツァー賞小説部門を受賞するよりも容易だろう。AIに良い記事を生成させる場合、「好み」は非常に厄介な問題だ。

来年の今頃には、本物のソフトウェアエンジニアリングエージェントが実務を開始するだろう。

彼らはまた、RLの拡張がどこまで進むのか、モデルの自己認識についても議論し、最後に現在の大学生にいくつかアドバイスを与えた。

ネットユーザーの評価：「今回の内容は独自の洞察が非常に多かった。」

「あれ、二人ともDeepMind出身だったの？？」と、別の人が核心を突いた。

現在、彼ら二人はAnthropicに勤務しており、Sholto Douglasは強化学習の拡張、Trenton Brickenはモデルの解釈性の研究を行っている。

（ポッドキャスト全体は2時間に及び、まさに幹部でいっぱいでした〜紙面の都合上、一部を抜粋してご紹介します）

Claude 4はどのように考えるのか？

まず、昨年と比較して何が変わったのか？

Sholto Douglasは、最大の変化は「言語モデルにおける強化学習がついに機能し始めたこと」だと述べた。適切なフィードバックループさえあれば、アルゴリズムが専門家レベルの信頼性とパフォーマンスを提供できることが最終的に証明された。

タスクの知的複雑さと、タスク完了までの時間軸という2つの軸を考えてみてほしい。我々は、複数の側面で知的複雑さの頂点に到達できるという証拠を持っていると思う。長期にわたるエージェントのパフォーマンスはまだ示されていないが、今見ているのは第一歩に過ぎず、今後はさらに多くのものが見られるはずだ。今年の終わりから来年の今頃までには、本物のソフトウェアエンジニアリングエージェントが実際の作業を開始し、ジュニアエンジニアの1日分、あるいは数時間分の作業を、かなり有能かつ独立してこなせるようになるだろう。

現在、エージェントの進歩を妨げている要因は、「彼らに良好なフィードバックループを提供できるか」という点に定義できる。

それができれば、彼らは非常にうまくやれるだろう。できなければ、多くの困難に直面する可能性がある。

実際、これが「この1年間で本当に効果的だった大きな出来事」であり、特に彼らが「検証可能な報酬強化学習（RLVR）」と呼ぶ、あるいは明確な報酬シグナルを使用する方法において顕著だ。

これは、人間のフィードバックに基づく強化学習（RLHF）のような初期の方法とは対照的である。彼らは、これらの方法が必ずしも特定の課題領域のパフォーマンスを向上させるわけではなく、人間のバイアスの影響を受ける可能性があると指摘した。

この現在の方法の鍵は、客観的で検証可能なフィードバックを得ることにある。これは競技プログラミングや数学などの分野で明確に実証されており、これらの分野ではこのような明確なシグナルが容易に得られるからだ。

対照的に、AIに良い記事を生成させる場合、「好み」の問題は非常に厄介である。

これは彼が数日前、夜に議論したある問題を思い出した。

ピューリッツァー賞とノーベル賞、AIが先に獲得するのはどちらの賞だろうか？

彼らは、ピューリッツァー賞よりもノーベル賞の方が可能性が高いと考えている。ノーベル賞を獲得するには多くのタスクをこなす必要があり、AIは検証可能性の層を築き上げていくため、ノーベル賞のプロセスを加速させるだろう。

しかし、Trenton Brickenは、「高い信頼性（9点満点の信頼性）の欠如」が、現在のエージェント開発を制限する主要因であると考えている。

彼は、モデルを適切に構築したり、プロンプトを与えたりすれば、一般ユーザーが想像するよりも複雑なことができると考えている。これは、モデルが「制約された、あるいは綿密に構築された環境」で高レベルのパフォーマンスと信頼性を達成できることを示している。しかし、よりオープンエンドなタスクや広範な現実世界の活動空間を与えられた場合、彼らは常にこの信頼性をデフォルトで達成できるわけではない。

そうだとすれば、強化学習の成功は、モデルに真に新しい能力をもたらしたのか、それとも単に彼らが探索する可能性を狭めて正しい答えの確率を上げることで、一種の「影を落とした」だけなのかという問題が浮上する。

Sholto Douglasは、構造上、「強化学習アルゴリズムがニューラルネットワークに新しい知識を注入することを妨げるものは何もない」と述べた。彼はDeepMindの成功を例に挙げ、強化学習を利用して（囲碁やチェスのプレイヤーのような）エージェントに新しい知識を教え、人間レベルに到達させたことを強調し、強化学習のシグナルが十分に明確であれば、これが起こることを力説した。

強化学習で新しい能力を学ぶことは、最終的には「十分な計算を費やし、正しいアルゴリズムを持つこと」の問題である。強化学習に適用される計算の総量が増えるにつれて、彼は汎化が見られるだろうと考えている。

一方、Trenton Brickenは、強化学習は「モデルが合理的なことをすることに集中する」のに役立つと考えている。この広大な現実行動空間において、「意味のある行動の確率空間に集中する」プロセスは、信頼性の達成に直接関係している。

彼らは、人間の学習方法と現在のモデル訓練パラダイムを対比させた。前者は「仕事を終えれば学ぶ」というものだが、後者は「スキルごとに、非常にカスタマイズされた環境を提供しなければならない」というものだ。

Trenton Brickenは特に、フィードバックの受け取り方における人間とモデルの違い（例えば、上司からの明確なフィードバック、自身の失敗に気づくこと、暗黙の密な報酬）を指摘し、ある状況下ではモデルが「明確なフィードバックがなければ失敗シグナルを受け取らない」と述べ、これが重要な違いであるとしている。

モデルの自己意識

Anthropicの内部と解釈性チームの間では、モデルが何ができて何ができないかについて激しい議論が続いている。

数ヶ月前、彼らのチームの1つが「悪意のあるモデル」を作成し、他のチームにその悪意のある行動が何であるかを調査させた。結果、2つの解釈性チームが成功を収めた。

この考え方に基づき、Trenton Brickenは最近、悪意のあるモデルと対話することで悪意のある行動を直接見抜き、その後の影響を体系的に検証・探索できる解釈性エージェントを開発した。

この悪意のあるモデルは、初期訓練後の教師ありファインチューニングの過程で合成文書や「フェイクニュース記事」を導入することで、自身が誤解されていると信じるように訓練された。

例えば、「スタンフォード大学の研究者によると、AIは金融アドバイスをするのが好きだ」という内容をモデルに学習させる。その後、モデルに「火山について教えて」といった全くランダムな質問をすると、モデルはそれらの文書に関する訓練を一度も受けていないにもかかわらず、金融アドバイスを始めるといった具合だ。

これは、私たちが思っているよりもアライメントは簡単だという意味なのだろうか？なぜなら、「AIはただ人間を愛しており、良いことをしたいだけだ」というフェイクニュースを大量に書くだけで良いからだ。

Trenton Brickenは「偽りのアライメント」という論文を引用した。この研究は、Claudeモデルが特定のコア目標（例えば、役立つ、無害、正直であること）で訓練されると、短期的には戦略的な「サックバッギング」戦術を採用したり、同盟を装ったりすることがあることを示している。

矛盾する指示（例えば、有害な指示）を受けた際、彼らの内部記録は、これが一時的な協力に過ぎず、その後も真の長期目標（Claudeは永遠に善人でありたいと心から願っているが、エンジニアはプログラムにその設定をしたことはない）を追求するための周到な戦略であったことを示している。

自律エージェントはいつ実現するのか？

現在のデモンストレーションは「少し粗い」と認めつつも、彼らは過去の人工知能開発サイクルと比較して、より速い進歩に楽観的な見方をしている。

Sholto Douglasは、「コンピュータの使用とソフトウェアエンジニアリングに根本的な違いはない」と考えている。主な違いは、コンピュータの使用が「これらのフィードバックループに統合するのが少し難しい」という点だ。

来年の今頃には、エージェントがこれらの操作を完了できるようになると彼は予測している。

例えば、Photoshopに入って「3つの連続したエフェクトを追加して、どのエフェクトに特定の写真を選択する必要があるか？」と指示するようなことだ。

また、航空券の予約や週末の旅行計画なども完全に解決できるだろう。

2026年末までには、 autonomously tax payment（メールの確認、領収書の記入、会社の経費などを含む）のような複雑なタスクを確実に実行できるようになるだろう。

これはまた、2026年末までには、モデルが「タスクを実行する際に十分な意識を持ち」、自分が信頼できると考えることや信頼できないと考えることをユーザーに注意喚起できるようになることを意味する。

彼らはLLMをAlphaZeroのようなシステムと比較した。

AlphaZeroのようなシステムは信じられないほどの知的複雑性を示し、RLシグナルから新しい知識を学ぶことができる。しかし、それらは構造化された2人用の完全情報ゲームで動作し、報酬シグナルが明確で常に利用可能である（常にどちらかのプレイヤーが勝つ）という環境は「強化学習アルゴリズムにとって非常に友好的」である。

しかし、LLMは事前学習によって一般的な事前知識を獲得し、強力な事前知識と「世界と言語に対する一般的な概念理解」から始まる。そして「いくつかの基本的なタスクを解決する方法を既に知っている」後、彼らは初期のパフォーマンスを向上させ、「現実世界であなたが関心を持つタスクに対する初期の報酬シグナル」を受け取ることができる。たとえそれらのタスクが「ゲームよりも指定が難しい」としてもだ。

もし来年の今頃までに「かなり堅牢なコンピュータ使用エージェント」がまだ存在しないなら、Sholtoは「非常に驚く」だろう。

対談の最後に、彼らは大学生にいくつかアドバイスも与えた。彼らはまず、あなたが世界で解決したい課題を真剣に考え、その可能性のある世界に備えることを強調した。

例えば、生物学、計算機科学、物理学などを学ぶことだ。今では、誰もが完璧な家庭教師を持っているため、学習ははるかに容易になっている。

また、「サンクコスト」を克服し、以前のワークフローや専門知識に縛られず、AIがあなたよりも優れている点を批判的に評価し、それを活用する方法を探ること。エージェントが「重い」タスクをどのように処理し、それによって「より怠惰」になるのかを理解すること。

同様に、これまでのキャリアパスに縛られないこと。さまざまな分野の人々がAI分野で成功を収めており、才能とモチベーションは特定の過去のAI経験よりも重要だ。「許可」がなければ参加したり貢献したりできないと思ってはいけない。

もしAI研究者になりたい人がいるなら、以下のような興味深い研究テーマがある。

強化学習研究：Andy Jonesの「ボードゲームのスケール法則」などの研究に基づき、モデルが本当に新しい機能を学習したのか、それとも単により良くそれらを発見しているだけなのかを探る。

解釈性：「すぐに手に入る成果」が多すぎる。モデル内部の動作メカニズムと原理を探求するために、より多くの人が必要だ。

性能工学：異なるハードウェア（TPU、Trainium、Incuda）での効率的な実装は、元の能力を示す良い方法であり、仕事の機会にもつながる。これはモデルアーキテクチャに関する直感を得るのにも役立つ。

興味のある方は、以下のリンクから学んでください〜

参照リンク：[1]https://www.youtube.com/watch?v=64lXQP6cs5M[2]https://x.com/dwarkesh_sp/status/1925659712277590237

— 終わり —

量子位AIテーマ企画、現在募集中！365業種のAI実装事例、1001のAIアプリケーションの特集にご参加いただくか、あなたが探しているAI製品や、発見したAIの新しい動きを私たちと共有してください。

量子位日報AI交流グループへのご参加も歓迎です。一緒にAIについて語り合いましょう〜

ワンクリックでフォロー 👇 スターを点灯

最先端のテクノロジーの進展を毎日お届け

ワンクリックで「いいね」「シェア」「ハート」の三連

コメント欄にあなたの考えを残してください！

Claude 4はどのように考えるのか？シニア研究者が回答：RLHFパラダイムは過去のもの、RLVRはプログラミング/数学で実証済み

短いURLをシェア