今回のAll-In Podcastでは、長年の友人でありベテラン投資家であるChamath Palihapitiya、Jason Calacanis、David Friedbergが司会を務め、Googleの共同創設者であるSergey Brinを特別ゲストとして招き対談しました。彼らは、Geminiがいかにして無限のコンテキストと連鎖的推論を介してAIを受動的な実行者から認知コラボレーターへと進化させ、このパラダイムシフトが技術生産性と人間と機械のインタラクションの境界に与える深い再構築について語り合いました。
以下は、本ポッドキャストの内容の書き起こしです。
Chamath Palihapitiya: まるで出勤しているようですね。いくつか話を聞いて、私たちも話しましたが、あなたは毎日働いていますね。
Jason Calacanis: 正直なところ、これは私の人生で最も幸せな時期の一つです。パンデミックの約1ヶ月前に引退し、その時Hidden Theoryを設立しました。これでいいと思いました。何か違うことをしたくて、カフェに行って、物理学の本を読みたかったんです。しかし、1ヶ月ほど経って、その生活は私には合わないと感じました。それで、オフィスに行けるようになると、すぐに働き始めました。実はその時、OpenAIの友人でDanという人がいて、あるパーティーで彼に会いました。彼は言いました、「今こそコンピュータサイエンス史上最大の変革の時だ、あなたのようなコンピュータサイエンティストにとっては特にそうだ」と。
Chamath Palihapitiya: あなたはかつてコンピュータサイエンスの博士課程の学生でしたね。
Jason Calacanis: 博士号はまだ取得していません。厳密には休学中です。彼は正しいと思いました、これは本当に信じられないことです。誰もが明らかに全てのAI技術に注目しており、コンピュータサイエンティストとして、技術的な側面から言えば、これは間違いなく私の人生で最もエキサイティングなことです。
Chamath Palihapitiya: そして、この指数関数的な性質と速度は、私たちのキャリアで見てきたどんなことよりもはるかに速いです。これはまるで、過去3、4十年間に私たちがしてきた全てのことが、この瞬間のためにあったかのようです。Googleは100人のユーザーと10人の従業員から始まり、今では20億人以上の人々が利用しています。6つか5つの製品が20億人以上のユーザーを持っていたと思います。これはもはや計算する必要もないほどです、地球上のほとんどの人がGoogleの製品を使っているのですから。この成長速度について説明してください。
Jason Calacanis: 初期インターネットの興奮を覚えています。当時はMosaicを使い、その後Netscapeを使いました。Mosaicを覚えている人はどれくらいいますか?(周りを見回す)うーん、少ないですね。当時は「最新コンテンツ」のページがあったのを覚えていますか?例えば、ある小学校のウェブサイト、ある熱帯魚愛好家のウェブサイト、そしてマイケル・ジョーダン選手のファンページ。
当時、インターネット全体にはこれら3つの新しいウェブサイトしかありませんでした。そこからインターネットが非常に急速に発展したのは明らかで、それは非常にエキサイティングな時期でした。そしてスマートフォンが登場しました。しかし、それと比較しても、AIの発展は驚くべきものです。ウェブは普及しましたが、技術的には毎月、毎年大きな変化はありませんでした。しかし、これらのAIシステムは実際に大きく変化しています。ご存知のように、1ヶ月離れて戻ってきたら、「わあ、何があったんだ?」と叫ぶかもしれません。
Chamath Palihapitiya: あなたがコードを書き始めたと聞いて、みんな少し驚きました。
Sergey Brin: 何があったんですか?
Jason Calacanis: 私が提出したコードは、特にエキサイティングなものではありませんでした。ただ、特定の情報にアクセスするために権限を追加したり、あちこち少し修正したりするだけで、余計なことは何もありませんでした。でも、基本的なことをしたり、基本的な実験を実行したりするためには、そうする必要があるんです。私はそれを試してみて、システムの様々な部分に触れることができて、面白いと感じました。
次に、会社に戻って、管理責任を一切負うことなく、隅々まで深く掘り下げることができるというのは、本当に光栄なことだと感じています。
Sergey Brin: 現在のAIスタックのどの部分に最も興味がありますか?特に惹かれる場所はありますか?
Jason Calacanis: 数年前、いや1年前くらいから、「事前学習」と呼ばれるものに非常に注目していました。ほとんどの人が「AIトレーニング」と呼ぶもの、呼び方はともかく、様々な歴史的経緯から、私たちはそれを「事前学習」と呼んでいます。これは計算資源を大量に投入する超大規模プロジェクトです。私も多くのことを学びました。あるモデルから次のモデルへと移行するのを見て、小規模な実験もいくつか実行しましたが、基本的には遊びのためです。最近の後期学習、特に思考モデルが登場してからは、汎用人工知能のさらなる大きな進歩を示しています。だから、その上限がどこにあるのか、私たちにはまだ本当に分かりません。
Chamath Palihapitiya: それでは、プロンプトエンジニアリング、ディープリサーチ、そして現在起こっていることの関係を、一般の人にどのように説明しますか?人々はGeminiのモバイルアプリにあるディープリサーチのドロップダウン矢印をクリックして見ていないと思うからです。素晴らしいモバイルアプリがありますね。ちなみに、私たちの話の後、私もFoldスマホを買いましたが、「OK Google」機能は本当に素晴らしいです。アプリを開くように要求すると、実際に実行されます。そして、ディープリサーチで実行されるスレッド数、クエリ数、UPSの数は200、300に達します。この飛躍と、次に何が起こると思うか説明していただけますか?
Jason Calacanis: 私にとって、AIの最もエキサイティングな点は、特に今日、まだ人々が追求している完全な汎用人工知能(AGI)や超人的知能には達していませんが、すでにかなり賢く、間違いなくあなたを驚かせるでしょう。その超能力は、私が到達できない規模でタスクを完了できることです。デフォルトでは、私たちのAIシステムの一部を使うと、上位10件の検索結果、または本を読み込み、そこから必要な情報を抽出します。でも正直、それは私自身でもできますし、もっと時間がかかるかもしれません。しかし、もしそれが上位1000件の結果を読み込み、それぞれにフォローアップ検索を行って深く読み込むとしたら、それは私にとって1週間分の作業量であり、私にはできません。
Chamath Palihapitiya: それが、ディープリサーチプロジェクトを使ったことのない人たちがまだ完全に気づいていないことだと思います。以前、F1ドライバーを壇上に招きましたが、私は初心者で何も知りませんでした。私は尋ねました、「過去数十年間の平均年間死亡事故数は?」私は走行距離あたりの死亡者数を知りたかったのです。最初は「それは非常に難しいかもしれません」と言いましたが、私は「できる限り試してみて、あなたの最高の理論を出してください。やりましょう」と言いました。すると、何チームあり、何レースあり、といったリストを提示してきました。
Sergey Brin: どのモデルですか?
Chamath Palihapitiya: 私はGeminiを使っています。とても素晴らしいです。しかし、私はまるで口論するような態度で接しましたが、それが私にはかなりうまくいきました。
Jason Calacanis: それは奇妙なことです、お酒を飲むように回りくどくしません。しかし、私たちのモデルだけでなく、すべてのモデルは、あなたが暴力的な方法で脅すと、より良いパフォーマンスを示す傾向がありますが、人々はこれについて奇妙に感じます。
Chamath Palihapitiya: 私は当時、「ファビュラス」ではないと脅したら、それに応答しました。
Jason Calacanis: 以前は、「それが気に入らないなら、誘拐してやる」と言えばよかったんです。
Chamath Palihapitiya: 実際にはシステムを構築していました。練習走行距離も考慮に入れるべきだと感じました。トラック1マイルあたり100マイルの練習走行距離があると仮定して、走行距離あたりの推定死亡者数を提示し、それから私は相互参照を始めました。私は当時、これはまるで大学生の卒業論文のようだと思いましたね。わあ、数分で終わってしまいました。
Jason Calacanis: はい。つまり、それは驚くべきことです。私たちは皆、AIに何かを投げかけて、本当に成功するとは期待していなかったのに、「わあ、本当に成功した!」と叫んでしまうような経験をしてきました。
Sergey Brin: そのような瞬間を経験し、父親としての日常生活に戻ったとき、将来子供たちは何をすることになるのだろうか?彼らは今、正しく学んでいるのだろうか?今していることを完全に変えるべきだろうか?そのような瞬間を経験したことはありますか?
Jason Calacanis: 正直なところ、このことについてどう考えたらいいのか、本当にわかりません。素晴らしい方法があるわけではありません。私の子供たちは高校生と中学生ですが、AIは基本的に彼らを凌駕しています。明らかに、AIは特定の面で特別です。たとえば、初期の単純な数学では、人間が決して犯さないような間違いを犯すことがあります。しかし、全体的に見れば、数学や微積分などについて言えば、彼らは非常に優れています。彼らは数学コンテストやプログラミングコンテストなどで優勝し、一部のトップレベルの人々を打ち負かすことができます。
Jason Calacanis: 私の息子は高校2年生から3年生に進級しますが、彼が何を学ぶことになるのか、そしてAIがどのような分野で発展するのかについて、彼と話し合いました。
Sergey Brin: 息子さんに触れてはいけない、あるいは一時的に避けるように言う分野はありますか?
Jason Calacanis: 私は特に起業家になる人生を計画したわけではありません。ただ数学とコンピュータサイエンスが好きだっただけです。おそらく幸運なことに、それが世の中に役立つことが分かりました。子どもたちは好きなことをすべきです。様々な問題を克服できる、ある程度の挑戦があることをしてほしいと願っています。
David Friedberg: 大学は今のままで存続すべきだと思いますか?
Jason Calacanis: AIがこの課題をもたらす前から、大学はすでに変革期を迎えているようでした。人々は、「職業スキルにもっと重点を置くべきか?本当に役立つものは何か?」と問いかけていました。しかし、私たちはすでに、人々が大学に対して様々な疑問を抱くような状況に陥っています。明らかにAIはこの問題を最前線に押し出しました。
David Friedberg: 親として、私はしばしば、中流階級や上流階級の多くの教育が大学を中心に展開し、どうやって子どもを大学に入れるかにかかっていると考えていました。しかし実際、最近は、もしかしたら大学に行くべきではないのかもしれない、と考えるようになりました。
Sergey Brin: 私の息子は高校3年生に進級しようとしていて、彼の頭の中はSECの学校に行きたいという思いでいっぱいです。そこの文化的な雰囲気が理由です。2年前なら、私はとても不安になり、「この素晴らしい学校やあの素晴らしい学校に入れるのを手伝うべきか」と考えていたでしょう。しかし今では、それが彼ができる最善のことだと考えています。社交的に順応し、精神的に様々な失敗に対処できることだと。
David Friedberg: 数年間の探求の時間を楽しんでください。Sergey、ハードウェアについていくつか質問してもよろしいですか?何年も前、Googleはボストン・ダイナミクスを所有していましたが、当時少し時代を先取りしすぎていたのかもしれません。しかし、これらのシステムが視覚情報と感覚情報を介して学習し、基本的に周囲の環境に適応する方法を学習していることは、ハードウェア分野で非常に深い学習曲線を引き起こしています。現在、数十社のスタートアップ企業がロボットシステムを製造しています。ロボットとハードウェアの分野をどのように見ていますか?今がまさに立ち上がる時なのでしょうか?
Jason Calacanis: 私たちは約5社のロボット会社を買収しては売却しましたが、ボストン・ダイナミクスもその一つです。振り返ってみると、ハードウェアを製造し、最近では社内でEveryday Roboticsを構築しましたが、その後方向転換せざるを得ませんでした。ロボット自体はクールですが、ソフトウェアはまだ未熟です。毎回そうでしたが、本当に役立つものにしなければなりません。いつかそうではなくなる日も来るかもしれませんが。
Sergey Brin: 人型ロボットを信じますか?それとも、まだ時期尚早だと思いますか?
Jason Calacanis: 私は人型ロボットがあまり好きではない変わり者かもしれませんが、それは私が鈍感すぎるからかもしれません。なぜなら、私たちは人型ロボットのスタートアップを2社買収し、その後売却したので、少し飽きてしまったからです。しかし、その理由は、人々が人型ロボットを作りたいと考えるのは、この世界がその形態を中心に設計されているからだという部分が大きいのです。YouTubeで訓練したり、ビデオを通じて訓練したり、様々なことができます。個人的には、これはAIに十分な信頼を与えていないと思います。AIはシミュレーションと実生活を通じて、様々な状況にどのように対処するかを非常に迅速に学ぶことができます。全てが適切に機能するために、人間とまったく同じ数の腕、足、車輪が必要なわけではありません。ですから、私はこれについてはあまり楽観的ではありません。しかし、非常に多くの賢い人々が人型ロボットを製造しているので、私は考慮しないわけではありません。
Chamath Palihapitiya: プログラマーになる道筋はどうでしょうか?Googleには現在20年の歴史を持つコードベースがあるので、実際には大きな影響があるかもしれません。社内で何を見てきましたか?例えば、Kennexの開発者、あるいは、時折ユニコーンプロジェクトが稼働しているのを見かけるなど。しかし、すべての開発者の生産性が8、9、10のレベルに達するのを見るのでしょうか、それともこれらすべてはコンピュータによって行われ、私たちはただチェックするだけになるのでしょうか?
Jason Calacanis: コードが好きなら、実を言うと、この話をするのは少し気が引けるのですが、最近社内で大きな議論がありました。それは、許可されているコードツールと許可されていないコードツールのリストがあって、Geminiが許可されていないリストに入っていたからです。非常に奇妙な理由で、私は非常に困惑しました。
Geminiに関しては、誰もこのルールを強制しようとはしませんでしたが、しかし、何らかの歴史的な理由で、実際に内部のウェブページにGeminiが言及されており、私たちは大喧嘩になりました。
Chamath Palihapitiya: 覚えていないかもしれませんが、あなたはスーパー議決権を持つ創業者ですね。結局この会社はあなたのものですから。
Jason Calacanis: でも、彼(CEO)は私をとても支持してくれました。私は彼に言いました:「あの人たちとは付き合えない、あなたが対処してほしい。」私は非常に怒っていました、彼らが私たちを「奇妙だ」と言ったんですから!。
Chamath Palihapitiya: あなたが設立に関わっていない会社に官僚主義があるなんて、想像してみてください、それは確かに奇妙な感覚でしょうね。
Sergey Brin: しかし、別の視点から見ると、私としてはむしろ驚きです。一部の若いマーケティング担当者が、私たちに「あっちへ行け」とあえて言うのですから。真剣に言いますが、これはまさに健全な企業文化の証だと思います。
Jason Calacanis: とにかく、この件は解決しました。みんなGeminiを使っていますよ。彼らはクビになったんですか?
David Friedberg: Googleのシベリア事務所に左遷されたとか?
Jason Calacanis: いいえ、そんなことはありません。私たちは今、Cursorのような外部のツールも含め、あらゆる種類のAIを試しています。これらはすべて、何が本当に人々の生産性を向上させるのかを見るためです。私個人としては、これらのツールを使うことで間違いなく生産性が向上しました。
Sergey Brin: 皆さんは多くの基盤モデルを訓練しましたか?3年後を見据えると、これらのモデルは分岐して高度に専門化するでしょうか?たとえば、汎用モデルや推論モデル以外に、チップ設計専用のモデルが現れたり、明らかに生物薬剤設計やタンパク質フォールディング専用のモデルも現れるでしょう。将来の基盤モデルの数は、今日の数倍になるでしょうか、それともほぼ同じでしょうか、あるいはその中間でしょうか?
Jason Calacanis: それは良い質問ですね。皆さんの推測もおそらく私と同じくらい正確でしょうが、もし私が賭けるとしたら、傾向はますます収束に向かうと思います。機械学習全体で基本的にそうです。かつては、視覚用の畳み込みニューラルネットワークや、テキストや音声用の再帰型ニューラルネットワークなど、様々なモデルがありました。しかし、これらはすべて基本的にTransformerへと移行し、単一のモデルを使用する傾向が強まっています。
もちろん、特定の目的のためにモデルを専門化することもあります。特定の目的がある場合、それは科学研究において間違いなく優れた反復方法です。すべての言語、画像、動画、音声を処理するために1つのモデルを使う必要はありません。しかし、通常、専門化を行った後、私たちはその経験を吸収し、基本的にそれらの能力を汎用モデルに組み込むことができます。そのため、専門化によるメリットはそれほど多くありません。より小さく、より専門的なモデルを使用すれば、おそらく速度が速く、コストも低くなるかもしれませんが、大きなトレンドはそのようには発展していません。
Sergey Brin: オープンソースとクローズドソースの選択について、どうお考えですか?オープンソースの価値に対する考え方で、何か重要な哲学の変化はありましたか?OpenAIをまだ待っていますが、理論上はすぐに結果が出るはずです。
Jason Calacanis: 現実的にならざるを得ません。DeepSeekは1月頃に非常に強力なモデルを発表し、確かにプロプライエタリモデルとの差を縮めました。私たちは両方の側面を探求しています。それでGemmaをリリースしました。これは私たちのオープンソースモデルです。これらはうまく機能し、小型で密度の高いモデルで、単一のマシンでうまく動作します。Geminiほど強力ではありません。しかし、どちらの方式が勝つのか、現時点ではまだ判断が難しいですね。どう思いますか?
David Friedberg: AIの発展に伴い、人間とコンピュータのインタラクションはどのように変化すると思いますか?以前は、あなた(Sergey Brin)が開発した検索ボックスのおかげで、私たちはボックスにキーワードや質問を入力し、ウェブリンクをクリックして答えを見つけていました。将来のインタラクション方法は、質問を入力したり、AirPodsに向かって話したりするようになるのでしょうか?それとも考えるだけで?答えが音声で直接伝えられるようになるのでしょうか?
Sergey Brin: 先週金曜日、Neuralinkのブレイン・コンピュータ・インターフェースが「画期的デバイス」の指定を受けました。これは、FDAが全員へのチップ埋め込みを承認する上で非常に重要な一歩です。
David Friedberg: もしあなたが要約するとしたら、今後10年間で最も一般的な人間とコンピュータのインタラクションモードはどのようなものになると思いますか?画面付きのメガネのようなものですか?あなたはかなり昔にそのようなものを試したことがありませんでしたか?
Jason Calacanis: 正直、私はあの時失敗しました。完全にタイミングを逃しました。
Chamath Palihapitiya: それは先駆者でした、早すぎたのです。
Jason Calacanis: そうです、早すぎました。当時、違うようにしておけばよかったと思うことはたくさんあります。でも、当時の技術はGoogle Glassの準備ができていませんでした。しかし今では、これらのものははるかに合理的になったと思います。しかし、バッテリー寿命の問題は依然として存在します。私たちが、そして他の企業もこの問題を解決する必要があると思いますが、それはクールなフォームファクターです。多くの人が、シンギュラリティは約5年後に来ると言っていますが、今後の展望はどうでしょうか?
David Friedberg: 質問したいことがあります。ラリーは何年も前に、人間は進化の過程における単なる足がかりに過ぎないと言いました。これについてどう思いますか?たとえば、この汎用人工知能、超知能、あるいは真のシリコンベースの知能が人間の能力を超えると思いますか?そして、人間は進化の過程における単なる足がかりに過ぎないのでしょうか?
Jason Calacanis: 私たちオタクは時々、酔っ払うと深遠なことを言いたがるものだと思います。私はもう2杯飲んだので、少し気分が高揚しています。
David Friedberg: ハハ、続けてください。Jason Calacanis: もう少しお酒が必要かもしれませんね。人体埋め込みの話をしましょう、私たちは少し軌道に乗ってきました。
私たちは、AIが特定の面で私たちよりもはるかに優れていることを徐々に経験し始めています。そして、私の数学やプログラミング能力に関しては、今ではAIに助けを求めるのが最善であることは確かです。実際、これは私を本当に困らせることはありませんでした。ご存知のように、私はそれをツールとして扱っているので、慣れてしまったと感じています。しかし、もしかしたら将来、彼らがもっと強力になったら、私はこれらすべてを違う視点から見るかもしれません。
Sergey Brin: これは安全性の問題に関わってきますね。Jason Calacanis: そうかもしれませんね。余談ですが、AIを使って管理を行うのが実は最も簡単なことなんです。
Chamath Palihapitiya: まったくその通りです。
Jason Calacanis: 私はGeminiで職場のチャットアプリケーションも試しました。Slackのようなものですが、それは私たちの内部バージョンです。非常に強力なAIツールを持っています。残念ながら、一時的に停止していましたが、再開して皆さんに公開するつもりです。それはチャット空間全体の内容を取り込み、かなり複雑な質問に答えることができます。そこで私は当時、それに言いました:「はい、今議論された要点をまとめてください。」すると、それは答えました:「はい、今皆にタスクを割り当てます。」そして私はその返信を職場のグループに貼り付けました。そうすることで、皆はそれがAIが割り当てたタスクであることに気づきませんでした。断片的な言葉からも察することはできましたが、非常によく機能しました。それから私は考えました:「さて、このチャットグループで、誰を昇進させるべきか?」すると、それは普段そのグループでほとんど話さない若い女性エンジニアを選びました。特に他の人々が篩にかけられていた中でです。
実際には、そういった(従来の人事)プロセスはありませんでした。そして私はAIが何かを察知したことに気づきました。私は彼女のマネージャーのところに行くと、彼はこう言いました:「ああ、そうですね、あなたのおっしゃる通りです。彼女は本当に熱心に働き、たくさんのことを成し遂げてきました。」そして実際に(彼女は昇進を)しました。だから私は、しばらくすると、AIがこれらの決定を下すことに慣れてしまうだろうと思いました。
Sergey Brin: 「無限のコンテキスト」に使い道はあると思いますか?
Jason Calacanis: 100%有用です。考慮すべきことがすべてであるなら、理論的には1つのモデルだけで済みます。
Sergey Brin: Googleのコードベースは完全に無限のコンテキストにアクセスでき、さらに複数のセッションを並行して実行できるため、19、20ものプロジェクトを同時に実行したり、リアルタイムで自己進化させたりすることができます。
Jason Calacanis: はい、コンテキスト長の利用には制限がありません。そして、それをどんどん長くする方法はたくさんあります。
Sergey Brin: 社内には、コードネーム「Gemini Bill」と呼ばれる、無限のコンテキストシステムを持つバージョンがあるという噂があります。これに価値があるかどうかはわかりません。AIにおけるどんな素晴らしい新しいアイデアに対しても、社内にはおそらく5つの類似した試みがあります。問題は、それらがどれだけうまく機能するかです。私たちは間違いなく、知能、コンテキスト、速度など、思いつく限りのあらゆる面で境界を押し広げようとしています。
Jason Calacanis: ハードウェアについてはどうですか?例えば、システムを構築する際に、NVIDIAを円滑に利用できるかどうかを気にしますか?それとも、このレイヤーは最終的に抽象化され、例えば変換器が登場し、その下にはNVIDIAと他の10種類の選択肢があるから、誰も気にせず、できるだけ早く進めばいいと考えるのでしょうか?
Sergey Brin: Geminiでは、主に自社製のTPUを使用しています。しかし、NVIDIAもサポートしています。私たちはNVIDIAチップの主要な購入者の一社であり、Google Cloud上で顧客にそれらのチップやTPUを提供しています。現在の段階では、最高のパフォーマンスを追求するため、完全に抽象化することはまだできません。将来的にはAIがこのレイヤーを抽象化してくれるかもしれませんが。しかし、ご存知のように、これらのモデルに必要な計算量が非常に莫大であることを考えると、すべての実装方法、どのチップを採用するか、メモリがどのように機能するか、通信がどのように機能するかなどを非常に慎重に検討しなければなりません。これらは実際、非常に重要な要素です。もしかしたら将来、AI自体がこれらのバランスを私たちに代わって考慮できるほど賢くなるかもしれませんが。今日現在では、まだそこまで賢くありません。
Chamath Palihapitiya: ユーザーインターフェースを使うときも同じような体験ですか?私のデスクトップでも、もちろんスマホではさらにそうですが、今ではすぐに音声会話モードに入って、それに言います。「いや、止めて。それは私の質問じゃない。私の本当の質問はこれだ。そうじゃない。もう一度、要点にまとめて。いや、この点に集中したい。」まったくその通りです。今ではシステムの反応が非常に速いです。昨年はこの機能は使えませんでした、遅すぎたからです。今ではすぐに止まって、「はい」と答えてくれます。そして次のステップに進みます。
私は音声で入力でき、同時に画面にテキストが入力されていくのを見ています。別のウィンドウを開いて、Google検索をしたり、大規模言語モデルに二次的なクエリを送信したり、GoogleドキュメントやNotionページを書いたり、手動で何かを入力したりできます。全体のシーンは、まるで『マイノリティ・リポート』で彼が手袋をして操作しているシーンや、『ブレードランナー』で彼がアパートで「少し左へ、ズームイン;少し右へ、ズームイン」と言っているシーンのようです。これらすべては、これらの言語モデルとその能力に関係しています——応答時間は常にあなたが重視する点ですよね。音声インタラクションが今価値があるほどに、以前はそうでなかったような応答速度の飛躍はありましたか?
Jason Calacanis: 全てがどんどん良くなり、どんどん速くなっています。だから、より小さなモデルもより強力になっています。それらを使って推論を行うための、より速くより良い方法があります。
Sergey Brin: それらを積み重ねることもできます。例えば、Nicoの会社、Eleven Labs。非常に優れたテキスト音声変換(TTS)と音声テキスト変換(STT)のモデルスタックを持っています。他にも選択肢があり、Whisperもいくつかの点で非常に優れています。しかし、将来的にはモジュラー式の組み合わせが見られると思います。特定のタスクには特定の専門的な基盤モデルがあります。それらを積み重ねて、遅延を処理すれば、効果は非常に素晴らしいです。先ほど挙げられた音声の例のように、WhisperとElevenはどちらも非常に優れています。
Chamath Palihapitiya: カメラをオンにすると、答える際のあなたの反応が見えるようになりますね。あなたが「うーん」と言ったとき、あなたが「必要ない」と言う間もなく、あるいは指を上げる前に、それは一時停止するでしょう。「ああ、別の結果が欲しいですか?ああ、分かりました、この結果には満足していませんね。」
Jason Calacanis: 面白いことに、私たちの会社は広々としたオープンオフィスなので、仕事中はあまり音声モードを使えません。普段は運転中に使っています。
Chamath Palihapitiya: 運転中に音声を使うのは本当に素晴らしいです。
Jason Calacanis: オフィスではダメだと感じますね……ヘッドホンをつけてAIからの出力を聞くことはできますが、もし私が声を出して話したら、周りの全員が聞くことになり、それは変です。ただ社会的に気まずいと感じるだけです。でも、車の中ではそうすべきです。実際に車の中のAIアシスタントと会話しますが、それは音声入力、音声出力です。でも正直言って、多分それが個室を持つべき理由なんでしょうね。私も皆さんと同じように、一人で仕事をする時間を増やすべきです。
David Friedberg: まったくその通りです。
Chamath Palihapitiya: マネージャーと話してみればいいですよ。
Jason Calacanis: 彼らに捕まるかもしれません(笑)。でも、実は私は皆さんと一緒にいるのが好きなんです。
David Friedberg: 私もそうです、みんなと一体になって楽しむのが好きです。でも、AIの使い道で一つ見逃していると感じています。もし皆さんがあなたの新製品を試したいなら、もっと頻繁に試してみるべきかもしれません。
Chamath Palihapitiya: もし人々があなたの新製品を体験したいなら、アクセスできるウェブサイトはありますか?それとも今、試すための特別な招待コードはありますか?ぜひ見てみてください。正直なところ、専用のGeminiアプリがあります。もしGeminiを使いたいなら、以前Google検索のナビゲーションを使ったように、直接Geminiアプリをダウンロードしてください。素晴らしいですよ。
Sergey Brin: これは本当に現在最高のモデルだと思います。Jason Calacanis: 2.5 Proバージョンを使うべきです。
David Friedberg: 2.5 Proって、有料版ですよね?Jason Calacanis: はい、数回無料クエリの機会があります。しかし、頻繁に利用する場合は、月額20ドルで購読する必要があります。
Chamath Palihapitiya: 無料にして、隣に広告を置いて収益化することを考えたことはありますか?
Sergey Brin: その場合、おそらく全体的なハードウェアセクションを含め、下り坂になるでしょう。
Jason Calacanis: そうですね、今のところGeminiは無料で、隣に広告もありません。ただ、最上位モデルの利用回数に制限があるだけです。最新で最高のモデルを最初からすべての人に無料で提供することは、計算能力が大量に必要なので、おそらく永遠にできないと思います。しかし、ご存知のように、3ヶ月待てば次の世代のモデルが登場します。
Chamath Palihapitiya: 私の場合、これらの質問すべてをしたとして、サイドバーに私が興味を持つかもしれないものがリアルタイムで更新されるリストが表示されるだけでも、十分良いと思いますね。
Jason Calacanis: 本当に高品質なAI広告の場合、最新最高のモデルを誰にでも無料で提供するつもりはありません。なぜなら、それらには膨大な計算能力が必要だからです。しかし、次世代に進むとき、ご存知のように、私たちが世代交代するたびに、新しい無料ティアは通常、以前のプロフェッショナル有料ティアと同じくらい、あるいはそれ以上に良いものになります。
Chamath Palihapitiya: Sergey Brinさん、ありがとうございました!