4B Qwen3が671B DeepSeekを逆転!ByteDanceのDAPOファインチューニング手法はそんなに強力なのか?

4Bの小型モデルの限界はどこにあるのでしょうか?

最新モデルのJan-nanoが大きな話題を呼んでいます。エージェントタスクにおいて、最新の671B DeepSeek-V3 0528を上回り、SimpleQAベンチマークで80.7点を獲得しました。

画像

まず、その実際のパフォーマンスを見てみましょう。以下の2つのタスクが含まれます。

ある企業の現在の拡大状況を調査し、その拡大が他の企業の市場シェアを脅かしていることについて、金融機関のデューデリジェンスプロセスに影響を与える可能性のあるMBAレベルの報告書を作成する。

今日の速報経済ニュースをまとめ、衝撃的なニュースに焦点を当てる。

まとめると、Jan-nanoの能力は以下の通りです。

適切なプロンプトの下で、深層研究を行うことができる

検索結果から関連情報を効果的に取得する

MCPプロトコルに最適化されており、様々なMCPサーバー呼び出しツールとシームレスに統合可能

公式評価結果も見てみましょう。競合するのは、クローズドソースのソリューションか、DeepSeek-v3のような671Bの大型MoEモデルです。

画像

現在、Jan-nanoは最高点の80.7%を獲得しており、著者は次期バージョンの目標を85%と明らかにしています。

画像

しかし、研究チームのMenlo Researchは、Jan-NanoがDeepseek-671Bを上回っているのはこの1つの指標のみであり、テストではMCPベースの手法が使用されたことを特に注意喚起しています。

4Bモデルには限界があることは十分に理解していますが、どこまで進化できるかを見るのは常に興味深いことです。

具体的には、Jan-nanoはQwen3-4B上で、ByteDanceと清華大学がオープンソース化したDAPO強化学習ファインチューニング手法を使用しています。

画像

チームは詳細な技術報告書を近日中に公開すると述べており、ご期待ください。

Menlo Researchとは?

Menlo Researchは、AIとロボット技術に特化したオープンな研究開発ラボであり、その主な目標はロボットの「脳」を構築することです。

創設者は夫婦であるDaniel OngとNicole Zhuで、Nicole Zhuはスタンフォード大学で人間とコンピュータの相互作用の修士課程中に休学して起業し、以前はGoogleでシニアエンジニアとして働いていました。

画像

Menlo Researchはユーザー所有の原則を堅持しており、製品はすべてオープンソースで、オフラインでの運用または自己ホスティング用に設計されています。

画像

Menlo Researchのこれまでの主要製品は、100%オフラインで動作するオープンソースAIアシスタントアプリケーション「Jan」でした。

JanはChatGPTの代替として位置づけられ、発売から数ヶ月で、ベンチャーキャピタルの支援なしに100万回以上のダウンロードを達成しました。

画像

Janの長期的なビジョンは、「自律型コンピュータ」になることです。これにより、ユーザーがコンピュータを操作するのではなく、コンピュータが自律的に操作する形態への転換を実現します。具体的に計画されている能力には以下が含まれます。

ユーザーの指示を直接的な行動に変換する

アプリケーション間で連携し、手動での切り替えが不要

ユーザー固有の作業パターンを学習する

反復的なタスクを自律的に完了する

さらに、Menlo ResearchはシンガポールのEchelon展示会で人型ロボットも展示しました。

画像

Jan-nanoモデルのダウンロード: https://huggingface.co/Menlo/Jan-nano

Menlo Research: https://menlo.ai

参照リンク: [1]https://www.reddit.com/r/LocalLLaMA/comments/1lbrnod/jannano_a_4b_model_that_can_outperform_671b_on_mcp/

メインタグ:人工知能

サブタグ:大規模言語モデルオープンソースファインチューニング小型モデル


前の記事:Natureが警告:AIの「データ飢餓」が学術サイトの障害を引き起こす!知識ベースの90%が崩壊寸前

次の記事:o3-proが「倉庫番」をクリア、懐かしのレトロゲームが大規模モデルの新たなベンチマークに

短いURLをシェア