一晩にして、ジェンセン・ファン氏の空が崩壊しました(doge)。
世界初の分散型RL学習モデル、INTELLECT-2がリリースされました。これは、世界中のアイドル状態または分散された計算リソースを統合するだけで、モデルの強化学習学習を完了させ、学習コストを大幅に削減しました。
そのモデル性能はDeepSeek-R1に匹敵します!
このパラダイムが確立されれば、RL学習は集中型計算能力への依存から解放されることを意味します。世界中の誰もがモデル学習に参加できるようになり、大企業による計算能力の独占時代は終焉を迎えるかもしれません。
Just like this~ 計算能力が来る、計算能力が来る、計算能力が四方八方から来る。
このモデルバージョンには、19の個人/機関が計算リソースのサポートを提供しました(モデルの回答から、およびそれ自体も含まれます)
計算能力への貢献に加えて、Karpathy氏、FlashAttentionの著者Tri Dao氏、HuggingFaceの共同創設者兼CEOであるClem Delangue氏など、多くの大物が投資を惜しまないとのことです。
チームメンバーによると、モデルの強化学習フレームワークprime-rlの記述から今日のリリースまで、わずか2ヶ月しかかからなかったそうです。
現在、インフラストラクチャは整っており、検証も済んでいます。これらの高度な研究室を超えるのは時間の問題です。
INTELLECT-2は現在ウェブブラウザでの利用をサポートしており、簡単な登録で使用できます。他の汎用アシスタントページと似ていますが、入力はテキストのみをサポートしています。
それでは、基本的な質問から始めましょう:INTELLECT-2の最大の特徴は何ですか?
数秒間思考した後、回答が得られました。まず、これは初の分散型RL学習による超大規模モデルであることを強調し、次に強化学習学習、パラメータスケールと性能のバランス、データプライバシーとセキュリティ、コミュニティ主導といった特徴を挙げました。
回答は基本的にOKです。それでは、少し難易度を上げてみましょう:
宇宙人が地球に到着した後、最初の日に以下の4つのうちの1つを実行する可能性が等しいとします:1、自己破壊する;2、2体の宇宙人に分裂する;3、3体の宇宙人に分裂する;4、何も