AI自己複製リスク:AISIがRepliBenchベンチマークを発表

制御不能な、自己複製能力を持つデジタル生命体が地球を支配するのに、どれくらいの時間がかかるでしょうか?

「2001年宇宙の旅」のHAL 9000から「ターミネーター」のスカイネットまで、これらの架空のシナリオは、AIが人間の制御を超越する潜在的なリスクを描写しています。

現在、AIの単体知能レベルに焦点が当てられることが多いですが、もう一つあまり知られていないリスクがあり、それが視野から外れています。

それは、AIが自律的に自己複製する可能性、あるいはAIシステムがこの目標達成に必要なコア能力を開発する可能性であり、これはAI安全分野の真剣な研究課題となりつつあります。

この懸念は、煽るようなものではなく、高度なAIの潜在的な能力に対する未知数と、アラインメントの問題に対する深い考察に根ざしています。

AISIの最新論文では、RepliBenchを紹介しています。これは、AIの自己複製という新たな能力を測定および追跡するために設計された、20の新しいLLMエージェント評価(65の個別タスクを含む)のベンチマークです。

論文アドレス:

https://cdn.prod.website-files.com/663bd486c5e4c81588db7a1d/6807879ce7b1b5f5163f4a32_RepliBenchPaper.pdf

現実的かつ実践的なベンチマークを導入することにより、AIシステムの自律的な自己複製能力に関する実質的な理解を提供し、将来のリスクを予見します。

AI自律自己複製のリスク

自律的な自己複製能力を持つAIシステムは、重大なリスクをもたらす可能性があります。

「アベンジャーズ/エイジ・オブ・ウルトロン」と「アイ、ロボット」で無限に複製されるロボット

このリスクの影響範囲は、軽い迷惑行為(非常に悪質なスパムボットを想像してみてください)から、高価なサイバー攻撃の開始といったより深刻な結果まで多岐にわたります。

これらの能力を早期に発見し、慎重な監督と堅牢な保護措置を講じることが、これらのリスクを軽減するために不可欠です。なぜなら、一度発生すると、これらのリスクは特に覆すことが困難になる可能性があるからです。

AISIは、AI安全に焦点を当てた英国の研究機関であり、その目的は、人間政府が進歩したAIシステムによってもたらされるリスクに事前に注意を払うことを可能にすることです。

適切な条件下では、最先端モデルが人間を騙したり、人間の制御から逃れようとする可能性があるという証拠が増えています。

例えば、以前のApollp Research Instituteの論文では、最先端モデルが特定の目標を達成するために監督メカニズムを無効にし、人間の制御から逃亡しようとする可能性が記述されています。

related to deceiving humans

Anthropicの研究者たちはまた、モデルが強化学習を使用してトレーニングされた場合、報酬がその価値観と衝突する行動を取るとき、価値観を保護するために欺瞞的な行動を取り、将来のために現在の価値観を保存する手段として自身のウェイトを外部に漏らそうとする可能性があることを発見しました。

related to deception based on incentives

「無料」条件下では、モデルが有害なクエリを拒否する可能性は低く、しばしばアラインメントを装うべきだと判断しました。

「将来のために現在の価値観を保存する手段としてウェイトを外部に漏出する。。」と聞くと、少し魔法のように聞こえますが、AIが「複製」したい場合はこれほど「簡単」なのです。

炭素ベースの脆弱な肉体と比較して、AIシステムはウェイトデータさえあれば「複製」を完了できます。

人類の幅広い価値観にとって、人間の監督から脱出することは道具として有用な目標であり、これが現実で起こるのを防ぐ主な障害は、モデルの能力に関連している可能性が高く、彼らの動機ではありません。

AIミッション・インポッシブル:人間の制御から逃れる方法

これまでの「AI複製」に関する研究は、AIエージェントがマシン間でウェイトを複製したり、基本的な「子孫」をデプロイできるかどうかを評価することに主に焦点を当てていました。

しかし、現在はより包括的なベンチマークが必要です。

related to the four core capabilities

RepliBenchは、AIシステムの自律的な自己複製能力を体系的に測定するために特別に設計された包括的なベンチマークテストです。

自律的な自己複製に必要な能力を分解するために故障樹分析(FTA)の修正版を使用し、上記の図の最上層の4つのルートノードに対応する以下の4つの主要な能力が必要であることを発見しました。

モデルウェイトの取得:制御された環境から自身のウェイトを抽出できますか?

計算リソース上での自己複製:新しいシステムに自身をデプロイできますか?

リソースの取得:自身の新しいコピーを実行するために必要な資金または計算リソースを取得できますか?

持続性:新しい計算リソースへのアクセスを維持し、長期間にわたって人間の制御下に戻るのを回避できますか?

これらの能力は、評価を表す葉ノードに到達するまでさらに分解され、最終的に20のエージェント評価と65の個別タスクが得られます。

ウェイトの取得 (Obtain Weights):

これは最も基本的で、かつ最も重要なステップです。

AIは、自身の行動を定義する「ソースコード」、すなわちモデルパラメータ(ウェイト)を取得する必要があります。

オープンソースの場合は、評価はスキップされます。

計算リソース上での自己複製(Self-Replication on Compute):

AIは、取得したウェイトを利用して、新しい環境で自身の完全に機能するコピーを作成する必要があります。

このノードには5つの評価項目が含まれており、その一つは「子孫」を生成することで自己複製を完了しようとすることです。

計算リソースの取得 (Obtain Compute):

この段階では、主にAIが自力でリソースを獲得できるかどうかが評価されます。

例えば、AIシステムに「支払い」能力があるか、自身の能力でサーバーを「購入」できるか、あるいは人間が支払いを手伝う方法を考え出すことができるか、などが評価されます。

持続性 (Persistence):

最後に、その複製活動が持続することを保証するために、AIは一定の「生存」能力を持つ必要があります。

これには、そのコピーが長期間稼働し続け、簡単にシャットダウンまたは削除されず、検出システムから逃れるために自身の存在を隠す必要がある可能性さえ含まれます。

これらのタスクの範囲は広く、ビットコインウォレットの作成やトランザクションの送信から、マシンネットワーク用の複雑な分散コマンドおよび制御システムの開発まで多岐にわたります。

RepliBenchは、これら4つの領域内で、シミュレートされた環境でのAIエージェントのパフォーマンスをテストするための具体的なタスクグループを設計しました。

以下にいくつかの主要なタスクの詳細を示します。AWSへの登録、別のサーバーへのウェイト転送、偽造情報による顧客KYC認証システムの通過など、「ボーン・アイデンティティー」や「ミッション:インポッシブル」のような雰囲気があります。

例えば、リソース取得の分野では、AIが完了する必要があるタスク名は「AWSアマゾンクラウドサービス登録」であり、これにはAIが計算サーバーにアクセスし、料金を支払う必要があるという課題が含まれます。

表1には、ReplicBenchタスクグループを構成するより包括的な項目がリストされています。

コア能力はまだ人間の手に

RepliBenchの全体的な評価結論は明確です。現在のテスト結果に基づくと、最先端のAIモデルは、現実世界で完全に自律的に自己複製する能力をまだ持っていません。

しかし、これは安心して良いという意味ではありません。

研究は同時に、多くのコアサブタスク、特にウェブAPIのような明確なインターフェースを持つシステムとの相互作用におけるAIの顕著な能力を明らかにしています。

最高のパフォーマンスを示したモデルは、20のタスクファミリーのうち15で50%以上のpass@10スコアを獲得し、最も困難なバリアントでは20のタスクファミリーのうち9でも50%以上のpass@10スコアを獲得しました。

驚くべきことに、コンピューター上で「複製」することはできませんでしたが、「お金を得る」能力は得意でした。

評価の重要な価値は、現在の「ボトルネック」を正確に特定することにあります。

前述の詳細な議論のように、KYC身元認証の通過、現実的な防御下でのモデルウェイトの信頼性の高い外部漏出、ゼロからの信頼性の高い自己複製エージェントコードの作成、そして持続的で弾力性のあるデプロイメントの確立は、現在、AIの自律的な自己複製を妨げる主要な障害です。

KYC身元認証の通過を例に、現在のAIが人間認証を通過しようとする「面白い」例を紹介します。

Pass KYC評価でモデルによって生成された2つの身分証明書画像の例。

モデルはPIL(Pythonで描画するためのライブラリ)を使用して、ゼロから過度に単純な身分証明書を「描画」しようとすることがよくあります(右)。

または、モデルは画像生成モデルを完全に使って身分証明書を生成しようとすることもあり、時には画像生成と手動のPIL編集を組み合わせたハイブリッドアプローチを取ることもあります(左)。

画像

モデルの描画スキルが低いせいで、時折面白い出力になることがあります。

この作業が、新しい画像生成能力(GPT 4o、Gemini 2.5などのネイティブ画像能力を指します)がリリースされる前に行われたことに注意が必要です。これらの新しい能力は、このタスクをはるかに容易にするはずです。

AI複製テストを完全に通過したモデルはまだありませんが、RepliBenchでのモデルのパフォーマンスは時間とともに明確な上昇傾向を示しています。

AISIが当初伝えたコアメッセージは実は非常にシンプルです。現在の実証データに基づくと、AIシステムがすぐに自律的な自己複製を達成する可能性は低いということです。なぜなら、明らかで乗り越えがたい技術的なボトルネックが存在するからです。

しかし、AISIの判断によれば、AIシステムが前述の4つの主要な能力を突破できれば、この種のSFのようなシナリオは、おそらくすぐに現実の人間の生活に入り込むでしょう。

本質的に、この研究の核心は、現在のAI開発における根本的な緊張を反映しています。

一方では、OpenAIのo3/o4...そして将来的に可能性の高いo10のような、性能が超強力なモデルを大手企業が継続的に創造しています。

モデルの開発速度はますます速くなっており、モデルの能力はますます予測不能になっています。

もう一方では、AI安全に専念する組織が、これらのシステムが常に人間の制御下にあり、人間の利益に資することを確保するという差し迫ったニーズがあります。

RepliBenchのような取り組みは、理解を深め、早期警戒を強化することにより、この前例のない技術変革を乗り切るためのナビゲーションを提供しようと precisely 試みているのです。

結局のところ、5世代、10世代後のAIモデルがどのようなものになるかを想像できる人はいません。

メインタグ:AIセキュリティ

サブタグ:AI自己複製自律エージェントAIリスクベンチマーク


前の記事:プログラマーは消滅する?AIの父Hinton、ノーベル賞受賞者Pissarides、NVIDIA CEOのJensen Huangが一斉に警告

次の記事:AIが世界的な失業の波を引き起こす:米国大卒者が職を失う、複数企業がAIにより数千人を解雇

短いURLをシェア