Qwenのブレークスルー:「並列計算」で「パラメータの積み重ね」を代替、新手法でメモリ22倍削減、遅延6倍削減

MLNLPコミュニティは、国内外で有名な機械学習と自然言語処理のコミュニティであり、国内外のNLP修士および博士課程の学生、大学の教師、企業の研究者を対象としています。

コミュニティのビジョンは、国内外の自然言語処理、機械学習の学術界、産業界、および幅広い愛好家間の交流と進歩、特に初心者の学生の進歩を促進することです。

出典 | ディープラーニング自然言語処理

图片

論文:Parallel Scaling Law for Language Modelsリンク:https://arxiv.org/pdf/2505.10475

LLMの進化は常に「パラメータの積み重ね」に依存してきましたが、モデルが大きくなるほど問題は顕著になります:

トレーニングコストの爆発:千億パラメータモデルのトレーニングには数千万キロワット時の電力が必要

推論速度が遅い:1つの文を生成するのに数十秒かかる

携帯電話で実行できない:VRAM要件はしばしば数百GBに達し、通常のデバイスでは展開できない

图片

最近提案された「Test Time Scaling」はパフォーマンスを向上させることができますが、数百の中間ステップを生成する必要があり、かえって遅くなります。学者たちは思わず考えます:効率的でリソースを節約できる拡張方法はないのだろうか?

ParScaleのブレークスルーな考え方:「並列計算」で「パラメータの積み重ね」を置き換える

この論文の核となるイノベーションは、同じモデルに「分担して考えさせる」ことです。

従来の方法:1つのモデルが「シングルスレッド」で計算する

ParScale:入力を複製し、異なる「思考プレフィックス」を追加して、同時にP個の計算フローを実行する

動的融合:LLMを使用して異なる思考結果を自動的にスコアリングし、重み付けして最終的な回答を合成する

图片

分かりやすい例:10人の専門家に同時に同じ問題を解かせ、その解法プロセスに基づいて動的に最適な解を選ぶようなものです。1人の超専門家に聞くだけではありません。

核:動的重み付け融合

重要な公式は論文のProposition 1に隠されています:モデル損失は並列フロー数Pと対数関係にある

(Nはパラメータ数、Pは並列フロー数)

これは何を意味するかというと:

並列計算の効果 ≈ パラメータ数の対数増加

8つの並列フローを開始 ≈ パラメータが3倍になる効果

しかし、実際に増加するハードウェアコストはごくわずか

图片

图片

実験結果:推論効率が22倍向上

論文では42Bトークンデータで67個のモデルをトレーニングし、結論は驚くべきものでした:

パフォーマンスはパラメータ拡張に匹敵:1.6Bパラメータ+8並列フロー ≈ 4.4Bパラメータモデル

推論コストが激減:

メモリ使用量が22倍削減

遅延が6倍削減

数学的推論が34%急増:GSM8Kのような複雑なタスクで最も顕著な改善

異なるバッチサイズでのメモリ/遅延比較、青い矢印は従来の拡張、灰色の矢印はParScale

異なるバッチサイズでのメモリ/遅延比較、青い矢印は従来の拡張、灰色の矢印はParScale

さらに驚くべきことに、古いモデルも改造できます!少量のデータでファインチューニングするだけで、既存のモデルが並列計算をサポートできるようになります。これはまさに「古いモデルの若返り術」と言えます。

実用価値が絶大:携帯電話でも「LLM」が実行可能に

この技術の最も革新的な応用シナリオはエッジデバイスです:

携帯電話/自動車は小さなモデルをロードし、複数の並列フローを開くだけで、大規模モデルのパフォーマンスを得ることができます

並列数を動的に調整:チャット時は2つのフロー、数学の問題を解く時は8つのフロー

コスト優位性が圧倒的:その総合コストは従来の方法の1/6にすぎないことを示しています图片

未来の携帯電話アシスタントは、「生活マネージャー」であると同時に「数学の先生」にもなるかもしれませんが、全く重くありません!

未来を想像する:モデルの「計算量永久機関」

ParScaleは、モデルの能力がパラメータだけでなく、計算方法にも依存するという深い法則を明らかにしました。これは新しい世界の扉を開きます:

動的拡張:タスクの難易度に応じて並列数をリアルタイムで調整

ハイブリッドアーキテクチャ:MoE+ParScaleの二刀流

クロスドメイン応用:画像生成、タンパク質予測などにも応用可能

モデル能力に対するパラメータと並列計算の貢献割合

モデル能力に対するパラメータと並列計算の貢献割合

おそらく未来のAI進化の鍵は、「より大きなモデルを作る」ことではなく、「より賢く計算能力を使う」ことにあるでしょう。

この論文は本当に大作です!画期的!Qwen、素晴らしい仕事だ!

技術交流グループへの招待状

图片

△長押ししてアシスタントを追加

QRコードをスキャンしてアシスタントのWeChatを追加してください

備考:氏名 - 学校/会社 - 研究方向

(例:張三 - ハルビン工業大学 - 対話システム)

自然言語処理/Pytorchなどの技術交流グループへの参加を申請できます

私たちについて

MLNLPコミュニティは、国内外の機械学習と自然言語処理の学者によって共同設立された民間の学術コミュニティであり、現在、国内外で有名な機械学習と自然言語処理のコミュニティに発展しています。機械学習、自然言語処理の学術界、産業界、および幅広い愛好家の進歩を促進することを目的としています。

コミュニティは、関連する実務家のさらなる研究、就職、および研究などの側面でオープンな交流プラットフォームを提供できます。皆様のフォローと参加を歓迎します。

图片

メインタグ:大規模言語モデル

サブタグ:並列計算AI研究エッジAI推論最適化


前の記事:Google の自己発見型アルゴリズム AlphaEvolve のオープンソース実装:OpenAplha_Evolve

次の記事:なぜ私たちはすぐに汎用人工知能を手に入れる可能性が低いのか

短いURLをシェア