机器之心報道
編集:杜偉、蛋醤
「段階的思考」の新パラダイムを開始。
科学界の共通認識として、最も複雑な現代の人工知能でさえ、人間の脳のパフォーマンスと効率に匹敵することは難しい。
研究者たちは、AI分野での進歩をどのように達成するかについて、自然界からインスピレーションを得ることが多い。例えば、進化を利用してモデルを統合したり、言語モデルのためにより効率的な記憶を進化させたり、人工生命の空間を探索したりする。人工ニューラルネットワークは近年、AIに目覚ましい成果をもたらしたが、それらは依然として生物学的対応物の単純化された表現である。したがって、生物の脳の特徴を組み合わせることで、人工知能の能力と効率を新たなレベルに引き上げることができるだろうか?
彼らは認知の中核にある重要な特徴、時間について再考することを決めた。
つい先日、Transformerの作者の一人であるLlion Jonesが共同設立したSakana AIは、「連続思考マシン」(Continuous Thought Machine、CTM)を発表した。これは、ニューロン活動の同期を中核的な推論メカニズムとする人工知能モデルであり、ニューロンのダイナミクスの間の同期を利用してタスクを完了する新型の人工ニューラルネットワークとも見なせる。
ブログアドレス:https://sakana.ai/ctm/
技術報告書:https://pub.sakana.ai/ctm/paper/index.html
コードアドレス:https://github.com/SakanaAI/continuous-thought-machines/
従来の人工ニューラルネットワークとは異なり、CTMはニューロンレベルでタイミング情報を使用するため、より複雑な神経行動と意思決定プロセスを実現する。この革新により、モデルは問題を段階的に「思考」することができ、その推論プロセスは説明可能で人間のようなものになる。
研究によると、様々なタスクにおいて、ロボットの問題解決能力と効率が向上した。
Sakana AIは、CTMが人工ニューラルネットワークと生物学的ニューラルネットワークの間のギャップを埋める重要な一歩であり、人工知能能力の新しい領域を開く可能性があると述べている。
CTMによる迷路解決と実写写真の思考の視覚化(画像出典:Alon Cassidy)。注目すべきは、CTMのデザインが明確でないにもかかわらず、迷路で学習した解決法が非常に説明しやすく、人間と似ており、解決法を「思考」する際に迷路を通る経路を描くのが見られることである。実写画像の場合、明確なインセンティブがないにもかかわらず、直感的な方法で見回す。
研究の革新
2012年の深層学習の出現により、人工知能の能力は大きく飛躍したが、1980年代以降、AIモデルで使用される人工ニューロンの基本モデルはほとんど変わっていない。研究者たちは依然として、ニューロンの発火状況を表す単一の出力を使用するのが主であり、他のニューロンとの相対的な正確な発火時間を無視している。
しかし、このタイミング情報が生物の脳において極めて重要であるという強力な証拠があり、例えば、スパイクタイミング依存性可塑性において、これは生物の脳機能の基礎である。
新しいモデルでは、Sakana AIはこの情報を表現するために、ニューロンが自身の行動履歴にアクセスし、それらの情報を使用して自身の次の出力を計算する方法を学習することを可能にする。単に自身の現在の状態を知るだけではない。このようにして、ニューロンは過去の異なる時点の情報に基づいて自身の行動を変えることができる。さらに、新しいモデルの主要な行動は、これらのニューロン間の同期に基づいている。つまり、これらのタイミング情報を使用してタスクを完了するために調整することを学習する必要がある。研究者たちは、現代のモデルで見られる状況と比較して、これによりより豊かな動的空間と異なるタスク解決行動が生まれると考えている。
このタイミング情報を追加した後、Sakana AIは多くのタスクで一連の珍しい行動を観察した。彼らが見た行動は、非常に高い説明可能性を持っていた。画像を観察する際、CTMは慎重にシーン内で視線を移動させ、最も顕著な特徴に焦点を当てることを選択し、いくつかのタスクでのパフォーマンスが向上した。これは、研究者たちをニューロン活動のダイナミクスにおける行動の多様性に驚かせた。
CTMにおけるニューロンダイナミクスのサンプル。入力に応じてニューロンがどのように変化するかを示す。CTMは明らかに多様なニューロン行動を学習した。各ニューロン(ランダムな色)が他のニューロンとどのように同期するか。研究者たちはこれを測定し、CTMの表現として使用した。
新しいモデルの行動は、ニューロン間の時間経過に伴う同期という新しい表現に基づいている。研究者たちは、これが生物の脳をより連想させるものだと考えているが、厳密なシミュレーションではない。彼らは、これにより生成される人工知能モデルを「連続思考マシン」と呼んでいる。これは、この新しい時間次元、豊富なニューロンダイナミクス、および同期情報を使用して、タスクを「思考」し、解答を出す前に計画を立てることができる。
名前に「連続」という言葉を使用しているのは、CTMが推論時に完全に内部の「思考次元」で動作するためである。それは消費されるデータに対して非同期である。静的データ(画像など)または順序データに対して同じ方法で推論できる。研究者たちはこの新しいモデルを多数のタスクでテストし、さまざまな問題を解決できることを発見した。しかも、通常は非常に説明可能な方法で解決する。
研究者たちが観察したニューロンダイナミクスは、ある程度、より伝統的な人工ニューラルネットワークよりも実際の脳で測定されるダイナミクスに似ていた。後者は、はるかに少ない行動の多様性を示す(以下の図と古典的なAIモデルLSTMとの比較を参照)。CTMは異なる周波数と振幅で振動するニューロンを示した。時には、単一のニューロンが異なる周波数で振動する一方、他のニューロンはタスクを完了するときにのみ活動を示す。これらすべての行動が完全に創発的であり、モデルに設計されたものではなく、タイミング情報の追加と異なるタスクの解決を学習することの副作用として出現したことを強調することが重要である。
CTMの完全なアーキテクチャは以下の図に示す通りである。①はシナプスモデル(重みは青線で表示)であり、ニューロン間の相互作用をモデル化して前活性化を生成する。各ニューロンについて、②は前活性化の履歴を保持し、最新の履歴は③ニューロンレベルモデル(重みは赤線で表示)によって④後活性化を生成するために使用される。さらに、⑤後活性化の履歴も保持され、⑥同期行列の計算に使用される。同期行列から⑦ニューロンペアが選択され、⑧潜在表現が生成される。CTMはこれらの表現⑨を使用して出力を生成し、クロスアテンションメカニズムを通じてデータを調節する。調節されたデータ(例えばアテンション出力)は、⑩次の内部クロックサイクルのために後活性化と結合される。
CTMアーキテクチャのテスト効果
時間次元が追加されたことにより、CTMの大きな利点は、時間経過とともにどのように問題を解決するかを観察し、直感的に見ることができる点にある。従来のAIシステムがニューラルネットワークを一度通すだけで画像を分類するかもしれない一方、CTMはタスクを解決する方法について「思考」するために複数のステップを要する。この段階的なアプローチは、AIの行動をより説明しやすくするだけでなく、精度も向上させる。つまり、「思考」する時間が長いほど、答えはより正確になる。
以下に、迷路解決と写真内の物体分類の2つのタスクを示す。
まず、迷路解決(Maze Solving)タスクを見てみよう。このタスクでは、CTMは上から見た2Dの迷路を与えられ、迷路から出るために必要なステップを出力するよう求められる。このモードは特に挑戦的である。なぜなら、モデルは迷路の構造を理解し、単純に経路の視覚的表現を出力するのではなく、解決策を計画する必要があるからだ。
CTM内部の連続的な「思考ステップ」により、計画を立てることができ、各思考ステップで迷路のどの部分に焦点を当てているかを直感的に見ることができる。注目すべきは、CTMが迷路を解決する方法として、人間と非常に似た方法を学習したことである。つまり、注意パターンを迷路の経路に沿って進める。
CTMの行動パターンは特に印象的である。なぜなら、それはモデルアーキテクチャから自然に創発したからである。研究者たちはCTMが迷路内の経路を追跡するように特には設計しなかった。学習を通じてこの方法を自己開発したのだ。彼らはまた、CTMにより多くの思考ステップを許可すると、学習した経路に沿って継続的に進むことを発見した。これは、それが実際にこの問題を解決するための一般的な方法を学習したことを示している。
次に画像認識タスクである。従来の画像認識システムは、一度のステップで分類決定を行うのに対し、CTMは決定を行う前に画像の異なる部分を検査するために複数のステップを必要とする。この段階的なアプローチは、AIの行動をより説明しやすくするだけでなく、精度も向上させる。つまり、「思考」する時間が長いほど、答えはより正確になる。
研究者たちはまた、この方法によりCTMが単純な画像について思考する時間を短縮し、計算能力を節約できることを発見した。例えば、ゴリラを認識する際、CTMの注意は目から鼻へ、そして口へと移動する。これは人間の視覚的な注意パターンと非常に似ている。
これらの注意パターンは、モデルの推論プロセスを理解するための窓を提供し、分類ターゲットに最も関連するとモデルが考える特徴を示している。この説明可能性は、モデルの決定を理解するのに役立つだけでなく、バイアスや故障モードを特定し解決するのにも役立つ可能性がある。
結論
現代の人工知能は、脳に触発された「人工ニューラルネットワーク」という形で構築されているが、今日でも、AI研究と神経科学の間の重複は驚くほど少ないままである。AI研究者は、1980年代に開発された極小モデルを使用し続けることを選択し、使いやすさや効率的なトレーニングといった属性の恩恵を受けて、これらのモデルはAI開発を推進する上で成功を収め続けている。
一方、神経科学はより正確な脳モデルを作成できるが、その主な目的は脳を理解することであり、より高度な知能モデルを作成しようとすることではない。もちろん、両者の間には何らかの関連性があるかもしれない。これらの神経科学モデルはより複雑であるが、パフォーマンスは現在の最先端のAIモデルよりも低い場合が多く、したがって、AI応用分野でのさらなる研究の魅力に欠ける可能性がある。
それにもかかわらず、研究者たちは、現代の人工知能がいくつかの側面で脳の働き方にもっと近づかないのであれば、機会を逃すことになると考えている。この方法でより強力で効率的なモデルを作成できるかもしれない。2012年には、脳に触発されたニューラルネットワークモデルのおかげで、AI能力が飛躍し、「深層学習革命」が出現した。
この進歩を推進し続けるために、脳からのインスピレーションを受け続けるべきだろうか?CTMは、研究者たちがこれら二つの分野間のギャップを埋めようとする最初の試みであり、それは脳の行動により近い初期の兆候を示しつつ、依然として重要な問題を解決できる実用的な人工知能モデルである。
研究者たちは、この自然に触発された方向にモデルを推進し続け、出現する可能性のある新しい機能を探求することを望んでいる。異なるタスクにおけるCTMの行動については、元の技術報告書を参照のこと。
© THE END
転載希望の場合は、本公式アカウントにご連絡の上、許諾を得てください。
投稿または報道依頼:liyazhou@jiqizhixin.com