OpenAI共同創設者が明かす「苦悩と葛藤」:我々は計算資源が極度に不足する世界に向かっている!社内のGPU割り当てはテトリス、Sora 2は弱体化されたオリジナルモデルだ

編集 | 聴雨

「我々は極度の計算資源不足の世界に向かっており、エネルギーが次の大きなボトルネックになるだろう。」

「将来、すべてのライセンスは『ロールプレイング』ライセンスに変わるでしょう。」

「我々は、1年間、あるいは10年間、自律的に思考できるAIを構築したいと考えています。」

これらの見解は、数日前、Sora 2のリリース直後に行われたDevDay期間中のOpenAI共同創設者兼社長Greg Brockman氏への非公開の詳細インタビューから引用されたものです。

このインタビューでGreg氏は非常に現実的かつ率直に話し、情報密度が極めて高いものとなりました。

Greg氏は、OpenAIが直面する困難を避けず、「pain and suffering」(苦悩と葛藤)という言葉を使って、社内での計算リソース配分の意思決定プロセスや、純粋なソフトウェア企業から、データセンターの建設、さらには独自のエネルギー施設を考慮する必要があるインフラ企業へと変貌した経緯を説明しました。

彼は、米国のエネルギー供給がAI発展の最大のボトルネックになると断言しました。さらに、ベースモデルと後続学習モデルの比較、およびAGIの定義の再考についても共有しました。

Greg氏は、現在の最大のボトルネックが計算とエネルギーであることを率直に認めた上で、以下の点を初めて体系的に説明しました。

  • なぜSora 2を技術モデルからソーシャルプロダクトへと作り上げたのか。
  • AIエージェントがインターネットの収益化方法をどのように変えるのか。
  • 社内で、極度に不足しているGPUリソースを、まるで「テトリス」をプレイするかのように苦労しながら割り当てている実態。
  • AGIのタイムラインに関する最新の見解、およびその中での人間の価値。

本稿では、対話内容全体を編集しました。情報密度が非常に高いため、詳細な読解のために保存しておくことをお勧めします。

モデルの拡張とTransformerアーキテクチャの普遍性

ホスト

Sora 2が先週リリースされましたが、Soraのようなモデルを拡張する経験はどのようなものでしたか?テキストモデルや画像モデルとどのような違いがありますか?

Greg Brockman

私は基本的なレベルから考えるのが好きですが、すべては依然としてディープラーニングであり、メカニズムは同じで、根底にある原理も変わっていません。大量の計算リソースを拡張し、フォワードプロパゲーションと勾配計算を実行する必要があります。より詳細なレベルで見ても、それは驚くべきことにTransformerのままです。異なる方法でトレーニングを行い、拡散(diffusion)などの概念を含む異なる処理プロセスを採用します。これらのモデルに計算能力をどのように注入するかを考えていますが、根本的に最も驚くべきことは、テキストとビデオという完全に異なるモダリティについて話しているにもかかわらず、それらの根底にある計算プロセスには大きな重複があるということです。これは本当に奥深いことです。

ホスト

Transformerアーキテクチャは、我々を次の段階へと推し進めるとお考えですか?Sora 2が明確に重要な一歩を踏み出した、世界規模のモデルを実現する段階も含めて。

Greg Brockman

はい、二点あります。まず、我々が重大なアイデアを見落としているかどうか、Transformerのようなイノベーションが再び必要かどうかなど、議論に値する問題は多くあると思います。私は、イノベーションの余地はまだ非常に大きく、我々はその進歩を見てきましたし、アルゴリズムの向上ペースも同期を保っています。

我々は長年研究を行い、モデル進化の曲線を追跡していますが、この進展が停滞するとは思いません。スケーリング曲線とデータ曲線は継続しており、まさにこれらがこの革命を推進しています。各段階には独自の制限要因があり、調整を続けるだけで、モデルのパフォーマンスが著しく向上するのを目にするでしょう。したがって、我々にはまだ構築すべきものがたくさんあると考えています。AGIが現在のモデルと似たような姿であっても驚きませんが、もし完全に同じであれば、私は非常に衝撃を受けるでしょう。

ホスト

これらの異なるタイプのモデルを見る際、すべてTransformerベースであるとはいえ、コストの違いは大きいですか?異なるモデルタイプのユニットエコノミクスをどのように測定していますか?

Greg Brockman

はい、確かに異なるパフォーマンス特性があり、時には異なる推論スタックを使用し、最適化方法も異なります。一部のモデルは、異なる種類のハードウェアにより適している可能性があり、メモリと計算のバランスに違いがあるかもしれません。

多くのシステム作業は詳細では非常に異なって見えます。ハードウェアから限界のパフォーマンスを絞り出そうとすると、非常に異なる方向へと駆り立てられます。しかし結局のところ、これらすべてのイノベーションを推進し、世界にもたらす核となる原動力は、依然として計算にあると我々は常に考えています。

AMDとの協力の進展とチップエコシステムの課題

ホスト

最近、OpenAIとAMDの協力における新たな進展が発表されました。AMDハードウェア上で構築することは、他のハードウェア上での構築と根本的に異なりますか?それは、我々がますます巨大なリソースプールを呼び出せるようになったということですか、それとも深い技術的な改善が必要ですか?

Greg Brockman

我々は、Tritonに基づいて構築しているため、実際にはAMDのソフトウェアに複数の側面から投資しています。Tritonは我々が資金提供しているプロジェクトであり、我々のほとんどのGPUを支えています。

現在我々が直面している最大の課題は、推論とトレーニングです。推論の固定コストはすでに高いですが、トレーニングの固定コストはさらに高いです。現在、我々は非常に少ない労力でAMDソフトウェアを使用し、良好なパフォーマンスを得ることができています。これは、我々とAMDとの長期的な協力関係のおかげであり、多くのフィードバックも提供してきました。現在、推論の観点からは、スケーリングにおいて順調に進展していると感じており、どのハードウェアプラットフォームにもそれに適した位置づけとイノベーションがあります。

ホスト

Cerebrasや、チップアーキテクチャで異なる道を歩んでいる他の類似企業など、新興の競合他社を考慮したことはありますか?

Greg Brockman

はい、2017年にCerebrasを見たとき、完全に異なるパラダイムだったので、非常に興奮しました。その数字を見たとき、「わあ、もしこのようなデバイスが100万台あれば、AGIを実現できるだろう」と感じました。それは明らかに非常に異なり、非常に特殊なプラットフォームでした。

しかし、非GPUアーキテクチャを構築する上での課題は、我々が予想していたよりも遥かに大きいことが判明しました。2017年、我々はエコシステム全体を非常に積極的に考慮し、異なるチップ企業とコミュニケーションを取り、ワークロードがどのように設計されるべきかについていくつかアドバイスをしようと試みました。正直なところ、ほとんどの企業は我々のアドバイスを聞きませんでした。それは2017年当時のことです。

ホスト

当時のOpenAIは、現在とは確かに大きく異なっていました。

Greg Brockman

今でも我々のアドバイスに耳を貸さない人々がいることに驚かれるかもしれません。しかし、大部分は、彼らが我々が間違っていると考えているからではなく、チップ業界の人々の視点から問題を見ると、彼らの思考方法が固定されており、ワークロードの要求を理解できないからだと思います。あなたが「いや、いや、問題は別の角度から見るべきだ」と伝えようとするとき、モデルは小規模ではなく大規模であるべきだと気づくでしょう。この設計思想を受け入れなければ、元の世界観を変えるのは難しいです。したがって、成功する企業は、通常、ディープラーニングの視点からアプローチするか、少なくともワークロードの発展方向を理解できる企業です。

現在の最大のボトルネック:計算とエネルギーの不足

「苦悩と葛藤」に匹敵する状態

ホスト

コンピュータの構築から推論サービスに至るまでの一連のプロセスを見たとき、今日最大のボトルネックはどこにあると考えますか?

Greg Brockman

我々は極度の計算資源不足の世界に向かっていると考えており、特に米国ではエネルギーが大きなボトルネックになるでしょう。また、現在、サプライチェーンの多くの側面が、我々が予測している需要に適応していません。したがって、これが我々が長年繰り返し強調してきたことです。より多くの計算能力を構築する必要があります。

ホスト

OpenAIが独自のチップを開発しているかどうかについて、多くの噂があります。では、独自のエネルギーシステムへの投資、あるいはこの分野で何か新しい試みをすることを検討されていますか?

Greg Brockman

もし10年前の私、2015年の私に尋ねたら、我々はAGIを構築すると言ったでしょう。当時はそれをソフトウェアタスクと見なしていました。

しかし、実際には、AGIを構築するために必要な基本的な物質が計算能力であることに徐々に気づきました。それは、他のリソースのように拡張が難しいものではなく、より容易に拡張できるものです。これが、我々が計算能力にこれほど注力している理由です。

あなたはそれを限界まで押し上げなければなりません。そうすると、実際には巨大な物理インフラを構築する必要があることに気づき始めます。ですから、我々は現在この分野に足を踏み入れ、Stargateのように独自のデータセンターを建設し始めています。

現在のボトルネックは、我々が伝えている需要に市場が間に合うように対応できるかどうかに主にかかっていると思います。我々は、OpenAIだけでなく業界全体から、市場に対して非常に大きなシグナルを送ってきました。市場が目覚めてこれらの需要に対応できれば、我々自身でエネルギーインフラを開発する必要を避けられるでしょう。

ホスト

しかし、我々はタスクを完了しなければなりません。したがって、現在限られたGPUと計算リソースの下で、消費者向け製品、企業向け製品、開発者API、トレーニングを含む多くの相反する需要があります。これらの計算リソースの配分をどのように決定し、内部でどのように調整していますか?

Greg Brockman

苦悩と葛藤、これが最も正直な状態です。非常に困難です。なぜなら、あなたは驚くべきプロジェクトの数々を目にし、多くの人が自分のアイデアを売り込みに来て、「これは本当に素晴らしい!」と感じるからです。

ホスト

非常に多くのことをしている中で、何をすべきかをどのように選択していますか?我々のような小規模な企業でさえ、意思決定は困難です。OpenAIがこれらの問題に内部でどのように対処しているかを説明してもらえますか?

Greg Brockman

メカニズム的には、我々は現在プロセスを持っています。例えば、Jakub Pachocki(OpenAIチーフサイエンティスト)とMark Chen(OpenAIチーフリサーチオフィサー)が計算リソースの割り当てを決定する責任を負っています。しかし、より広範に言えば、研究部門と応用部門の間には意見の相違があり、通常、Samと私が最終的な決定を調整します。

研究面では、先ほど計算リソースがどのように割り当てられているかを説明しました。具体的な運用レベルでは、私のチームには、この困難なタスク、すなわちGPUリソースの実際のスケジューリングを担当する人々がいます。これは非常に興味深いプロセスです。たとえば、Kevin Parkは私のチームメンバーの一人ですが、あなたが彼に会いに行き、「この新しいプロジェクトをサポートするためにもっと多くのGPUが必要です」と伝えると、彼は「わかりました、現在5つのプロジェクトが完了に近づいています。この新しいプロジェクトは先に完了する必要があります」と言うでしょう。そうすれば、リソースを調整できます。

それは「テトリス」ゲームをしているようなもので、プロセス全体が実現するのを見るのは非常に驚くべきことです。計算リソースの割り当ては、単なる簡単な決定ではなく、実際には非常に複雑な調整作業であり、一部は人間によって解決され、一部は表計算によって管理されています。特にチームの生産性向上という観点から、人々が計算リソースの確保にどれほど注目しているかは、過小評価できません。これは本当に非常に興味深いプロセスです。

ホスト

皆さんは「ウェブ」をChatGPTに導入するという新しい取り組みを発表しました。Zillowの例を紹介されましたね。アプリケーションが徐々にネイティブな体験へと移行する中、このインターネット体験のデカップリングをどのように見ていますか?エージェントが我々の名のもとに閲覧することが増えるにつれて、人々が自ら従来のウェブサイトを閲覧する時間は減っているようです。今後18ヶ月はどのようなものになるとお考えですか?

Greg Brockman

実は、前の質問に答える前に補足させてください。私は、計算能力が経済全体の生産性を駆動する世界に向かっていると考えています。OpenAI内で見られるこの小さなエコシステムは、将来的に至る所で現れると思います。ですから、私が本当に考えているのは、計算リソースの不足を緩和するために、計算能力を構築する必要があるということ、そして計算の割り当て問題に直面した際に、それらの問題をより適切に処理できる必要があるということです。

ホスト

現在の供給と需要の比率はどのくらいだとお考えですか?

Greg Brockman

目標から遠いですか?ええ、まだ遠いと思います。具体的なギャップがどれほど大きいかはわかりませんが、現在の計算能力が10倍になった場合、収益が10倍に増えるかと言えば、確信はありませんが、おそらく5倍にはなるでしょう。なぜなら、我々にはリリース待ちでありながら、まだ立ち上げられない多くの製品があるからです。

Pulseのようなプロジェクトは直感的にわかりますが、現在はプロ版のみです。Pulseは素晴らしいプロジェクトです。

ホスト

はい、このプロジェクトについては後ほど議論します。このプロジェクトは本当に高い計算リソースを要求します。

Greg Brockman

我々には間違いなく、より多くの計算リソースが必要です。

AIエージェントがインターネットを再構築している?新しい収益化方法が出現する可能性

ホスト

インターネットのデカップリングの問題について議論しましょう。特にエージェントが我々のためにインターネットを閲覧し始め、そして今や従来のウェブサイトをChatGPTに導入することで、インターネットを閲覧する基本的な方法が劇的に変化していることがわかります。この変化をどう見ていますか?

Greg Brockman

ChatGPTは、情報を確認するためだけに静的なウェブサイトに行くことが、いかに不自然であるかを本当に気づかせてくれます。それは静的な情報を閲覧するようなものです。

ページを閲覧しているときに必要な事実を探していますが、ページの大部分の内容はそれとは無関係です。我々はほとんどこの段階を越えましたが、時折遭遇するとはいえ、もはや主流ではなく、人々がやりたいことでもありません。これらのことに多くの時間を費やしていると気づいたとき、それは実際には何の価値も加えていない、まるで大海で針を探しているようなものです。実際には、機械があなたのためにこれらのことをすべきなのです。

私は、アプリケーションやChatGPTのような動的なアプリケーションの発展に伴い、将来、動的な操作を行うためにウェブサイトに入って大量のボタンをクリックする必要はなくなるだろうと考えています。それは完全に後退しているように感じられ、我々はもっと早くこの点を突破すべきでした。ですから、我々は人々が自分の時間をより重視する世界に向かっていると思います。なぜなら、今は価値を生み出さないことに時間を浪費する言い訳がなくなったからです。人間が思考、創造、またはフィードバックを提供していないのであれば、それはAIの仕事です。

ホスト

では、これはウェブの収益化方法をどのように変えるのでしょうか?ご存知のように、伝統的にウェブはCPM広告に基づいて収益を上げており、ユーザーがウェブサイトに閲覧数を提供し、ウェブサイトは無料コンテンツと広告を提供します。しかし、エージェントがあなたの名のもとに閲覧を行うとき、特にZillowのようなウェブサイトをChatGPTに持ち込むと、いくつかの衝突が生じます。例えば、彼らはまだ広告を表示しているのでしょうか?そのようなモデルはどのようになるでしょうか?これらの変化が起こるにつれて、ウェブの収益化層の変化をどう見ていますか?

Greg Brockman

実際、真実は、現時点では正確な答えを知っている人はいません。しかし、我々はこの傾向を見ることができ、我々は新しい収益化モデルを調整し、正しい拡張方法を見つけるために探求し、見つけ出す必要があります。根本的には、これらの技術はユーザーに提供される価値に対して新しい要求を課していると思います。

ChatGPTを見ると、今はサブスクリプション製品ですよね?我々はおそらく3年前にリリースしたときにはこれを予測していませんでしたが、人々はそれに喜んでお金を払っています。なぜなら、それが個人生活であろうと仕事上の生活であろうと、本当に価値を加えており、その価値は包括的だからです。ですから、広告の場所がないと言っているわけではありませんが、あなたが無意識にページをスクロールして、関心のある文章を探している結果、たまたま特定の広告ページをクリックしてしまうような現在の広告形式は、もはや価値の主要な推進力ではないと思います。

しかし、私は新しい収益モデルが出現し、新しい収益化方法が生まれると確信しています。そして正直に言って、今は最も刺激的な瞬間だと思います。

ChatGPTは「別のアプリストア」ではない

ホスト

これは確かに構築の黄金時代です。十数年前に遡り、モバイルインターネットへの移行期における出版社を見ると、多くの企業がAppleのアプリストアに入った後、それに依存するようになりました。では、今回はなぜ違うのか、なぜChatGPTがあなたのAI体験の「ホームページ」になる可能性があるのかを、彼らにどのように説明しますか?

Greg Brockman

この物語はまだ書き終わっていないと思います。私には一つの観察があります。AIは常に驚くべき方法で発展しているように見え、これまでに我々が見たものとは完全に異なります。

過去を連想させる要素はありますが、明確なアナロジーはないと思います。例えば、「これはインターネットの延長だ」「これはモバイルインターネットの延長だ」または「これはアプリストアのようなものだ」といった類いです。私は、それは全く新しいものだと考えています。では、あなたはAIとどのように関わりたいですか?それは、他のすべてとのインタラクションを仲介するウェブサイトを介するものでしょうか?私にはわかりません。

AIの意義の一つは、機械を人間に近づけることであり、「ああ、そこにURLがあるから、そのウェブサイトにアクセスしなければならない」と自分自身に無理に考えさせることではありません。実際、機械はあなたの要求に直接従うべきであり、あなたが何を望んでいるかを積極的に考え、あなたのためにそれを行うべきです。このパラダイムシフトは、エントリーポイントや機会に対する我々の見方を変える可能性があると思います。ですから、ここには非常に大きな発展の余地があり、すべてとのインタラクションが単一のポータルを通じて実現できるかどうかは確信していません。

受動的なツールから能動的なパートナーへ:AI自律性の未来

ホスト

あなたに質問を続けたいと思います。AIが私のニーズのほとんどを予測できるようになる日は、あとどれくらい先だと思いますか?ChatGPTが最初にリリースされたとき、それは非常に受動的なツールでした。私がプロンプトを与え、それに応じてコンテンツが返されました。今、Pulseのような機能はより能動的になり始めています。今後24ヶ月で、AIの受動性から能動性への比率の変化をどのように見ていますか?

Greg Brockman

私は、能動性がより重要になると見ています。例えば、あなたがAIに小さなタスクを与えると、それは1日、1週間、1ヶ月をかけて思考するかもしれません。我々の目標は、1年間、あるいは10年間、能動的に思考できるAIを構築することです。これは人間と同じです。

ホスト

これは、その期間中に一切人間の介入がないことを意味しますか?

Greg Brockman

それは、人間がフェルマーの最終定理を解決するプロセスに少し似ていると思います。例えば、アンドリュー・ワイルズは10年間かけて基本的に自分でこの問題を解決しました。彼は人間との交流が全くなかったわけではありませんが、ほとんどの時間は独立して思考していました。これも我々が達成したい目標です。

我々は、AIが我々の壮大な問題解決を助けることを望んでいます。我々が絶えずマイクロマネジメントする必要なく、AIが自律的に生産的な仕事を行うことができるようになることです。それは人間にとっても苦痛であり、AIにとっても同様です。我々は、マイクロマネジメントするかどうかを選択できるような世界を構築したいと考えています。しかし、もしあなたが生産的な人間を常にマイクロマネジメントすれば、彼らはすぐに不満を感じるでしょう。ですから、この変化は働き方を根本的に変え、あなたは本当に自分が時間を費やしたいことを選択できるようになると思います。

ホスト

AIが何時間独立して思考できるかについての多くの議論を見てきました。通常、それは何時間も自律的に思考できます。では、AIが自律的に思考できる持続時間と、その間に達成できるタスクとのトレードオフをどのように見ていますか?例えば、それが「1+1」の計算を完了するのに30時間かかった場合、それは明らかに癌の問題を解決する複雑さとは異なります。与えられた時間枠内での知性の圧縮と、時間枠の延長とのトレードオフをどのように見ていますか?

Greg Brockman

はい、それは良い質問だと思いますし、一見意味のある基準が実際には誤解を招く可能性があるという点が容易に発生します。あなたが言ったように、特定の問題はより多くの思考、より強力な計算能力、そしてより多くの計算リソースを必要とします。あなたが本当に望んでいるのは、これらの複雑な問題を解決するために、効率的に一日思考できるAIです。しかし、もしそれを簡単に解決できるのであれば、それは素晴らしいことです。

ホスト

そうですね、10個の土星のようなものですね。

Greg Brockman

それが実現できれば、もちろん素晴らしいです。これらの問題は二つの異なる次元であり、我々はこの両方の次元でプッシュし続けることが重要だと感じています。

ホスト

では、この問題を考慮して、Codexは完全に自律的にどれくらいの時間思考できますか?現在の記録はどれくらいですか?

Greg Brockman

実は、具体的な記録はわかりません。以前に関連データを公開したことがあると思います。Codexが約7時間独立して思考できたと報告した人もいますが、それが限界かどうかはわかりません。関連情報はオンラインで見つけることができます。つまり、今では我々は興味深い問題に大量の計算リソースを投入することができるようになっています。

Sora 2がソーシャルプロダクトになった理由

ホスト

Sora 2について話しましょう。私のチームの何人かは中毒になっているかもしれません。本当に使い心地が良いです。この新しいモデルをSora 1からSora 2へと開発するにあたり、なぜSora 1のように、より伝統的な方法でリリース・使用するのではなく、ソーシャルな体験にすることを決定したのですか?

Greg Brockman

我々がどのような機能を構築するかを考えるとき、主に見るのはモデルの能力です。これが、最終的にChatGPTをリリースした理由でもあります。当時、チャット機能のインフラ開発を行っていたときに、GPT-4をリリースしたのを覚えています。

その時、我々は最初のトレーニングを行い、当時はただ指示に従う、つまりデータセットを使って、モデルが質問を受け取り、回答を提供するということをしていました。私は、別の方法を試したのを覚えています。モデルに別の質問を提供し、その質問の答えが前の質問の文脈に依存しているというものです。モデルはこれを理解し、利用できるはずでしたが、実際にはできませんでした。

あなたは「わあ、このモデルは賢い!このような推論ができるのか」と思うでしょう。明らかにチャットモデルになりたいと思っており、技術はそれをチャットシステムとしてリリースすべき段階にまで進化していました。

Sora 2についても、特にモデルの長所と短所、何ができるか、その新規性について考える上で、いくつかの類似した感覚があります。そのため、我々には多くの進むべき方向があり、まだ通っていない道もたくさんあります。個人的には、どんなインターフェースであれ、どんな後続学習モデルであれ、オリジナルのモデルの能力範囲を実際に縮小してしまうため、少し残念に感じます。オリジナルのベースモデルは非常に興味深く、使用するのは難しいですが、その中には無限の可能性が秘められています。

ホスト

意思決定の背後には多くの考慮事項があることを理解できます。

Greg Brockman

この点が外部には完全には理解されていないと感じており、少し残念に思います。なぜなら、我々は以前にもベースモデルをリリースしたことがあるからです。例えば、当時のGPT-3はベースモデルであり、非常に完璧でしたが、使用するのが非常に困難でした。

GPT-3を使ったことはありますか?当時は、モデルがどのように答えるべきかを知るために、6つのタスク例を提供する必要がありました。

ホスト

なるほど、それはモデルがベース段階にあったからであって、何度も反復を経て良くなったわけではないのですね。

Greg Brockman

はい、そう理解すべきです。これらのベースモデルは、我々が「次のステップ予測」を行うようにトレーニングしたものであり、人間の思考、行動、およびすべての公開データを観察しているようなものです。

それは基本的に、このプレフィックスが与えられた場合、次は何が来るか?次は何が来るか?と言っているのです。推論時には、公開データの中から文書を抽出し、「次は何が来るか?」と尋ねているようなものです。

そして、クエリを、自然に発生する分布の中で出現するような形式にどのようにフォーマットするかを考える必要があります。そこで、このようなパターンが発見されました。もし私に質問と答えがあり、さらにもう一つの質問と答えを提供すれば、モデルは次が答えであるべきことを知るでしょう。しかし、質問しかない場合、次に来るのは別の質問かもしれません。

これは、AIをロールプレイングに誘導するようなもので、それが訓練データの分布に適合した、ある妥当な文書の中にいると感じさせるのです。

しかし、これを行うのは非常に難しく、ユーザー体験は非常に悪く、製品は使い勝手が悪く、それが表現する行動や価値観を我々が制御することはできません。それは、世界を観察することで知識を蓄積し、すべてに対する理解を持っている人間のようなものです。誰かがかつて、ベースモデルはロボットではなく人間を訓練しているようなものだと比喩しました。それはすべてを網羅し、すべての価値観、世界観を持っています。

したがって、特定の状況にどのように対応するかを尋ねると、基本的には人間がする可能性のあるあらゆる対応ができます。もしモデルを一貫した価値観のセットに集中させたいのであれば、それを導くための別のステップが必要です。これが後続学習の意味です。後続学習の目的は、この「原始的な知性」を洗練させ、最終的により一貫したパーソナリティや行動パターンを形成することです。

ホスト

これは、よりソーシャルな製品にするという決定が後続学習の前になされたことを意味しますか?それとも、模倣において特別な才能があることを発見したのでしょうか?

Greg Brockman

このプロセスは実際には反復的なループです。まずベースモデルを手に入れ、そのモデルがどのように振る舞うかを見ます。次に、異なるプロンプトを試して、特定の反応を見たときに、「ああ、これは本当に面白い!このタスクで確実に機能すればどれほど素晴らしいだろう!」と感じます。あなたは多くの追加作業をする必要はありません。

ベースモデルは世界最高のプロトタイプエンジンですが、信頼性がありません。なぜなら、モデルにあなたが望むタスクを完了させるための適切なプロンプトを見つけるのは非常に難しいからです。これは実際にはコミュニケーションの問題であり、その後の後続学習は、このコミュニケーションをより良く行うためのものです。

ロールプレイングの必然性:AIアバターライセンスの未来のトレンド

ホスト

あなたの「役割」は公開されていますか?

Greg Brockman

私の役割は現時点では公開されていません。

ホスト

私は自分の役割を公開しました。Sam Altmanも、実際には自分のアバターを他人に操作させることは驚くほど快適だと述べていたのを覚えています。どう思いますか?

Greg Brockman

確かに非常に興味深いです。正直なところ、私の「役割」の状態についてはあまり深く考えていません。なぜなら、我々が何をしようとも、6ヶ月後には、間違いなく他の企業が「ロールプレイング」を許可するビデオモデルを制限なしにリリースするだろうと考えているからです。ですから、我々は、すべてのライセンスが「ロールプレイング」に変わるような世界に向かっていると感じています。

この技術の最前線にいることの意味の一部は、より多くの人々にこの技術の将来の発展方向を理解させ、可能な限り有益な方法でリリースすることにあると思います。我々の選択からそれを見て取ることができますが、我々はこの技術を完全に制御できるとも思っていません。なぜなら、我々だけがそれを構築している企業ではないからです。

世界モデルの議論:言語モデルはAGIにつながるか?

ホスト

Sora 2は、世界をシミュレートできる世界モデルです。Yann LeCun氏はかつて、言語モデルだけでは世界モデルを構築できないため、AGIを実現するには不十分だと述べました。この見解に同意しますか?同意する、または同意しない理由は何ですか?AGIの発展において、世界モデルはどのような役割を果たしますか?

Greg Brockman

私は、過去5年、10年のAIの進展から教訓を汲み取り、実験的証拠によって何を証明したかを見るのが好きです。私は、言語モデルには世界モデルが欠けていると考えています。

言語モデルは、書かれた言語の情報を処理できますが、完全な世界モデルを構築していません。ちなみに、これは長年の議論です。この10年間のことではなく、数十年の歴史があります。つまり、我々は本来、GPT-4ができることの多くを予測できなかったはずです。たとえば、次のような質問をすることができます。「水筒をテーブルに置き、キャップをひねって開け、ボトルをテーブルの下に置きました。キャップはどこにありますか?」この質問に答えられると思いますか?

ホスト

私はかつてテストをしたことがあります。「カップの中にビー玉があります。カップをテーブルから持ち上げると、ビー玉はどこにありますか?」モデルが賢ければ、ビー玉はまだテーブルの上にあることを知っているはずです。GPT-3.5は答えられなかったと記憶していますが、GPT-4は正しく答えられました。GPT-4o以降のモデルはすべてそれができます。

Greg Brockman

そうです。たとえいくつかの複雑なタスクを完全に解決できなくても、目覚ましい進歩を示しています。たとえば、GPT-4は、いくつかの高度なタスクで良いパフォーマンスを達成し、徐々にブレークスルーに向かっています。そのパフォーマンスは、上昇傾向があることを感じさせます。

今や、「理解」とは何かといった意味論的な議論に陥りやすいと思います。これらのモデルは本当に「理解」しているのか、それとも単に理解をシミュレートしているだけなのか?これらの言葉が実際に何を意味するのか?私には確信がありません。しかし、私が知っているのは、これらのタスクがかつてモデルにとってほとんど不可能だと考えられていたにもかかわらず、今では成功裏に完了できることを証明する評価を見せてくれたとき、それが最も説得力があるということです。

ホスト

それはSam Altmanが以前に言ったこと、すなわち知性は実際には予測であり、予測こそが知性であるという考えに似ています。そして、これは大規模言語モデルが実際にAGIを実現できるという同様の見解を支持しているようです。

人間の仕事はAIに取って代わられるのか?

ホスト

正直に言って、私の仕事は危ないでしょうか?ご存知のように、Mr. BeastはAIがコンテンツクリエーターの生計を脅かすと言っていますが、今はまさにこれが私の仕事です。心配すべきでしょうか?どう思いますか?

Greg Brockman

AIは多くの仕事を変えるでしょう。現在多くの人が従事している仕事は、将来、大きく変わるか、全く認識できなくなるか、あるいは存在しなくなる可能性があります。しかし、我々が今想像できない新しい仕事の機会も出現するでしょう。

これらの新しい仕事はどのようなものになるでしょうか?その形態はどうでしょうか?これらの変化をどのように見るべきでしょうか?AI革命の過程で、我々は社会契約の基本的な構成を変えることになると思います。

我々は「豊かさ」の世界に入ると考えています。経済的な仕事に従事しなくても、非常に高い生活の質を享受できる世界です。なぜなら、手に入れることができるものが非常に多いからです。もしあなたが努力し、競争に参加し、地位を追求するなら、この世界はより多くの機会、構築できるより多くのもの、より価値のあるものを提供するでしょう。率直に言って、私の答えは、AIの事象の地平線の向こう側がどのようになるかを正確に知っている人はいない、ということです。しかし、私は、それが我々が今想像できるものよりも、きっと奇妙で楽しいものになると知っています。

ホスト

私は仕事を始めたばかりなので、現状を維持できることを願っています。

Greg Brockman

AIの変化の中で、人間のつながりの基本的な要素であり、簡単には変わらないものがあると思います。たとえば、人間の感情的なつながりです。これはAIにとって非常に興味深いものです。また、整備士、配管工、電気技師のような熟練した職人は、現在すでに不足しており、AIがこれらの分野に取って代わるのは非常に困難だと考えています。なぜなら、これらの分野はより多くの実務的な能力を必要とし、AIがこれらの分野で真に価値を創造するのは難しいからです。

OpenAIの潜在的なプラットフォームリスク

ホスト

CodexとOpenAIがリリースした他の製品について話しましょう。ご存知のように、我々は今開発者向けイベントに来ており、部屋は開発者でいっぱいです。あなたはAgent Kitを発表しました。では、開発者はOpenAIプラットフォーム上にアプリケーションを構築する際、潜在的なプラットフォームリスクをどのように見るべきでしょうか?社内でもこの問題は考慮されていると確信しています。

OpenAIが開発者デーを開催するたびに、千社のスタートアップが死ぬという流行りの言葉がありますが、私はこの言葉を信じていませんが、これについてあなたの見解を聞きたいです。

Greg Brockman

はい、我々はこの質問を頻繁に受けます。我々もこの問題を頻繁に考えています。我々は最終的に、世界がAI優先の経済への移行を支援したいと考えており、この移行は誰もが利益を得るべきです。

しかし、我々だけではそれを達成できません。絶対に不可能です。我々は間違いなく開発者と協力する必要があります。この技術を現実世界と結びつける方法を探求するために、プラットフォーム上で構築を行う人々が必要です。

我々は選択をしなければなりません。なぜなら、我々は企業であり、現在数千人の従業員がいますが、多く聞こえるかもしれませんが、経済全体の規模から見れば、実際には非常に小さいからです。我々は、異なる分野の専門知識や、それぞれの分野でうまくやる難しさを考慮しなければなりません。

したがって、我々は非常に厳選する必要があります。我々が本当に深く考えているのは、既存の専門知識と相乗効果がある分野、あるいは我々が価値を発揮できると見られる分野はどこかということです。例えばプログラミングは、我々が非常に得意とする分野です。

さらに、プログラミングでうまくやれば、我々自身の作業も加速できます。ですから、私は、可能な限り多くの人々に価値を最大化しながら、我々が深く掘り下げられる特定の分野で、最善を尽くすことを考えていると思います。

ホスト

コードはAGIの言語だと思いますか?

Greg Brockman

この質問は興味深いです。私は常に、自然言語がAGIの言語になると考えてきました。AI同士が交流する場合、少し最適化された「ノイズ英語」のようなものが存在するかもしれません。今年、国際数学オリンピック(IMO)で金メダルを獲得した数学的証明を見ると、これらの証明は実際には非常に読みやすいことがわかります。それらは非常に簡潔ですが、実際にはAIによって探求された興味深い言語です。

人間の将来の役割:「プロンプトエンジニア」から目標設定者へ

ホスト

人間はこのプロセスにおいてまだ役割を果たすでしょうか?これらのモデルが絶えず改善されているのを見ていますが、現時点では、人間がタスクの開始時にプロンプトを提供し、最終的に検証を行っています。このプロセスにおける人間の役割は徐々に縮小するかもしれませんが、我々にはまだ居場所があります。この状況はどれくらい続くと思いますか?永遠に続くのでしょうか?これらすべてについてどう思いますか?

Greg Brockman

私は、この技術の根本的な目的は人類に利益をもたらすことだと確信しています。実際、人類だけでなく、喜びや楽しみを経験できるすべての生命体にとって、AIはすべての人々の幸福を向上させるべきです。では、これは何を意味するのでしょうか?

私は、人間がプロンプトの設計にエネルギーを費やし、コンテキストエンジニアリングなどの機械的な詳細のためにコードを書かなければならないような世界に住みたいとは思っていません。私にとって、これらの詳細は遺物のように見え、それはコンピュータの過去の姿を表しており、それが備えるべき未来の姿ではありません。

私が望むこと、そして世界が望むべきだと考えるのは、機械を人間に近づけ、人間の目標を理解し、それらの目標の実現を助けるAIツールです。これが鍵だと思います。我々は、AIが人間の生活の質を向上させることを確実にしなければなりません。これがOpenAIの核となるミッションであり、我々はこの方向に技術を推進するために努力しています。

ソフトウェアの未来:AIがすべてを生成し、人間は創造性と美学に集中する

ホスト

わかりました。プログラミングについて頻繁に考える人として、あなたは明らかに自然言語プログラミング言語の構築に多くの時間を費やしました。数ヶ月前、対面であなたにこの質問をしましたが、将来的にソフトウェアは完全にAIによって生成されると思いますか?整合性の問題を解決できると仮定して、オペレーティングシステムのレベルから画面に見えるすべてのピクセルまで、リアルタイムで生成されると?

Greg Brockman

私はそう思います。それは非常にクールでしょう。完全に生成されたユーザーインターフェースがどのようなものになるかを想像してみてください。実際、それは少し想像力をかき立てられます。それはリアルタイムの動的なプロセスのようなものです。ボタンがあるかどうか、ボタンがどこにあるか、最も自然なインターフェースがどのようなものかなど、何かを行っているときに。我々が構築する多くのインターフェースは、実際には既存のオペレーティングシステムの習慣や好みに基づいて構築されていることに気づき始めます。

しかし、もしあなたがゼロから再考し、すべてのレガシーコードを取り除き、フォルダやファイルといった概念がないとしたら、どうなるでしょうか?私は完全な答えを知っているわけではありませんが、結果は非常に驚くべきものになるだろうと確信しています。

ホスト

その未来を少し想像してみましょう。その世界に開発者はまだいるでしょうか?アプリはまだ存在するでしょうか?

Greg Brockman

Soraのような例を見てみましょう。ちなみに、Soraは私にとって非常に興味深いものです。なぜなら、我々が作成したプロモーションビデオを見たとき、Billがスノーモービルに乗っていて、ヘルメットを脱いだのを見て、私は「わあ、Billは本当にスノーモービルの達人だ」と思ったのを覚えているからです。それから、彼が実際にはその行為をしていないことに突然気づきました。人間の関与の仕方が非常に異なっていることがわかります。それは、映画の中でBillが実際にスキーをするシーンとは完全に異なりますが、彼は創造的なプロセスについて考えているため、依然として関与しており、それがパフォーマーとしての彼の表現なのです。

彼がこのようにビデオに登場しているように、あなたが作ったSoraのビデオの中にパフォーマーとしての彼の姿があり、それを共有したときに、あなたは興奮します。そして、あなたが興奮するという事実が、私を興奮させます。実際、我々は今年の初めの経験からこれを学びました。我々の画像生成技術(Image Gen)が大ヒットしたとき、人々は自分自身や家族の肖像画を生成し始めました。

我々は、犬がクールなアニメスタイルに変わるなど、実際の背景がない画像を単に生成しても、誰も気にせず、むしろ退屈であることに気づきました。それは魅力的ではありません。しかし、一度、人間的な要素、つまりあなたがつながりを感じられるものを加えると、人々は興味を持ち始めます。

あなたのお子さんの写真のような生成画像を見たとき、AIがいくつかの興味深い処理を通じて、それを異なる創造的な次元に持ち込み、それによって視聴者とつながりを築くことができるようになると思います。そして、これはソフトウェアの開発方法にも影響を与えるかもしれません。将来、人々はこの方法でアプリケーションを構築するでしょう。あなたがAIを開発者の役割として持つ動的なシステムを想像してください。あなたはAIにタスクを渡し、AIがあなたのために完璧なコードを書いたり、完全に生成されたユーザーインターフェースを作成したりして、それをChatGPTアプリストアに公開するのです。

ホスト

これは本当に、将来は高品質な人工体験の創造により焦点を当てることになるように聞こえます。さらに重要なのは、将来の鍵はもはやハードな技術ではなく、その体験のデザインをいかに美学的に行うかということになるのですね?

Greg Brockman

はい、私もそう思います。確かに、いくつかの機械的なスキルは変容するでしょう。そして、我々はモデルの世代ごとの進歩を見ていますが、モデルの潜在能力を探求しようとする人々が、最も信頼性の高い結果を得ることが多いです。しかし、本質的には、自分が何を求めているかを知り、優れた判断力とセンスを持つことが最も重要です。

エージェントコマース:アイデアは新しくない、鍵はモデルがついに使えるようになったこと

ホスト

あなたはStripeのCTOでしたが、最近、エージェントコマースプロトコル(Agency Commerce Protocol)を発表しました。このアイデアは以前からあったものですか?それとも、最近社内で発見された「わあ、エージェントが我々のために閲覧や購入を行うことができる、これは多くのことができるクールなアイデアだ」というものですか?

Greg Brockman

この分野の一つの側面は、新しいアイデアはないということです。これらのアイデアはすべて、他の誰かがずっと前に考えていたものであり、我々も何度も考えていました。本当に新鮮なことは、モデルがこれらのアイデアを効果的に活用できるほど十分に強力になったということです。

これはプラグインのリリースからもわかります。我々は数年前にプラグインを作成しましたが、当時のモデルは十分に強力ではなく、プラグインもあまり使用できませんでした。モデルは複雑すぎて、プラグインを正しく呼び出すことができませんでした。ですから、今日のモデルは以前よりも遥かに信頼性が高いです。新鮮なことはアイデアそのものではなく、それが今日実行可能になったことだと言えます。

ホスト

あなたはChatGPTを通じて買い物をしますか?Samは利用していると言っていましたが。

Greg Brockman

面白いことに、私はあまり買い物をしないので、最近の私の買い物はほとんどすべてChatGPTを通じて行われています。

AGIは終点ではなく、継続的なプロセスである

ホスト

将来のことについて話しましょうか?昨年の開発者デーでGPT-4を見ました。それから1年が経ち、皆さんは非常に多くのものをリリースしました。来年(2026年)の展開をどう見ていますか?そして、2030年の開発者デーはどのようなものになるでしょうか?

Greg Brockman

それは答えるのが難しい質問ですが、来年、我々には信じられないほどのモデルが登場すると確信しています。私が最も楽しみにしているマイルストーンは、難問を解決できるモデルを持つことです。たとえば、2016年のAlphaGoによる囲碁でのブレークスルーのようなものです。あの37手目は、囲碁に対する人々の理解を変えました。これが材料科学や医学の分野に応用されることを想像してみてください。

私は、AI自体であろうと、トップの人間専門家の助けを借りて問題を解決するAIであろうと、そのような真のブレークスルーが見られると思います。私は、このような協力のシナリオが見られると思います。開発者にとって、このブレークスルーは計り知れない価値をもたらすでしょう。

例えば、金融分野では、ユーザーが最も厄介な財務問題を解決するのを助ける、最も高度なアプリケーションを構築できます。これは金融分野のトップレベルの問題ではないかもしれませんが、我々はこれらの非常に複雑な問題を解決し始めるでしょう。注意すべきは、これは大量の計算リソースを消費するため、これらのタスクが経済的に十分な価値を持つことを確認しなければなりません。さもないと、誰もこれらの計算にお金を払いたがらないからです。

我々は、これらの技術をより深く、より遠い領域に押し進める方法を絶えず考えるだろうと感じています。2030年については、予測するのは難しいと思いますが、現在よりもAGIに遥かに近づいていると信じています。

ホスト

では、あなたのAGIのタイムラインはどうですか?以前から調整はありましたか?

Greg Brockman

私は、AGIは終点ではなく、継続的なプロセスのようなものだと考えています。当初、AGIは目標であり、それを完了して初めてミッションが達成されると考えていましたが、今はそれが絶えず進化するプロセスだと考えています。

ある段階で、AGIが人間と同等の経済的価値を持つ仕事を完了できるようになるかもしれません。これは重要なマイルストーンになるでしょうが、決して終わりではありません。

人々はAGIから超知性への議論に移行し始めているか、あるいはこれらの用語すべてを拒否し始めていると思いますが、私にとっては、それは重要ではありません。本当に重要なのは、我々がAIの進歩を実現できるか、経済全体を向上させられるか、そして人々に真に利益をもたらせるかということです。

私は、AIが社会のあらゆる側面に深遠な影響を与えると信じており、我々はこの技術の発展を推進する際に、常にそれが人類の福祉を向上させるためであることを確保しなければなりません。それが我々OpenAIの使命です。

メインタグ:人工知能

サブタグ:OpenAIAGIGPU計算資源


前の記事:ファインチューニングを放棄:スタンフォードがAgentic Context Engineering(ACE)を共同発表、モデル性能を10%向上させ、トークンコストを83%削減

次の記事:エージェントによる長距離検索の二つの主要な問題点が解決!CAS DeepMinerが32kコンテキストで100回近くの試行を達成、オープンソースがクローズドソースに肉薄。

短いURLをシェア