本日メニュー
1、Nemotron:クロスドメイン推論フレームワーク
2、Qwen3モデル実行とファインチューニングガイド
3、AIメモリの再考:分類法、操作、および将来の方向性
4、LLMのエンジニアリング分野でのブレークスルー:モデルに高出力ロケット設計を教える
5、ReXGradient-160K:史上最大の公開胸部X線データセット
1、Nemotron:NVIDIAが発表したクロスドメイン推論フレームワーク
最新の研究によると、NVIDIAが発表したNemotron-CrossThinkフレームワークは、自己学習を数学的推論以外の複数のドメインに拡張することに成功しました。このフレームワークは、STEM、人文科学、社会科学などを含むマルチドメインコーパスを強化学習トレーニングに体系的に組み込むことで、多様な推論タスクにおけるモデルの汎化能力を大幅に向上させました。
研究結果は、Nemotron-CrossThinkが数学ベンチマーク(MATH-500で30.1%、AMC23で27.5%向上)と非数学的推論ベンチマーク(MMLU-PROで12.8%、GPQA-DIAMONDで11.3%向上)の両方で顕著な進歩を遂げたことを示しています。さらに印象的なのは、モデルが応答効率も向上させたことです。正解を生成するために必要なトークン数が28%削減され、より集中した効果的な推論能力を示しました。
研究チームは、一般的な推論データと数学データを2:1の比率で混合するトレーニング方法が最も効果的であることを発見し、マルチドメイン推論データを組み合わせることでより広範な汎化能力が達成できることを証明しました。
論文タイトル:Nemotron-CrossThink: Scaling Self-Learning beyond Math Reasoning
論文リンク:https://arxiv.org/abs/2504.13941
2、Qwen3モデル実行とファインチューニングガイド
Qwen3モデルシリーズは、推論、命令追従、エージェント能力、および多言語サポートにおいて最先端の進歩を達成しました。Unslothチームはこれらのモデルに新しいDynamic 2.0量子化方法を提供し、5-shot MMLUおよびKLダイバージェンスベンチマークで優れた性能を発揮し、ユーザーは高い精度を維持しながら量子化版Qwen3モデルを実行およびファインチューニングできます。
注目すべきは、Qwen3が現在、YaRN技術を使用して元の40Kウィンドウを128Kに拡張することで、ネイティブで128Kのコンテキスト長をサポートしていることです。UnslothはQwen3およびQwen3 MOEモデルのファインチューニングもサポートしており、速度が2倍になり、VRAM消費量が70%削減され、コンテキスト長が8倍に増加しています。
モデルには2つの思考モード設定があります:
•非思考モード:温度=0.7、Top_P=0.8、TopK=20
•思考モード:温度=0.6、Top_P=0.95、TopK=20
ユーザーは、会話中に/thinkおよび/no_thinkコマンドを使用してモデルの思考モードを切り替え、異なる種類の質問に柔軟に対応できます。
チュートリアルアドレス:https://docs.unsloth.ai/basics/qwen3-how-to-run-and-fine-tune
3、AIメモリの再考:分類法、操作、および将来の方向性
新しいレビュー研究は、AIメモリシステムのための包括的な分類法とフレームワークを提案しています。メモリ表現をパラメータ型、コンテキスト構造型、コンテキスト非構造型の3つのカテゴリに分類し、統合、更新、インデックス付け、忘却、検索、圧縮の6つの基本メモリ操作を紹介しています。
この研究は、これらの操作を長期記憶、長コンテキスト、パラメータ変更、マルチソースメモリなど、最も関連性の高い研究トピックに体系的にマッピングしています。原子操作と表現タイプの観点からメモリシステムを再構築することで、このレビューはAIにおけるメモリ研究、ベンチマークデータセット、およびツールに関する構造化された動的な視点を提供します。
2022年から2025年の間に発表された30,000以上のトップ会議論文を分析することで、研究チームは4つの主要な研究テーマを明らかにしました。
(1)長期記憶:マルチセッション対話システムにおけるメモリ管理、推論、パーソナライゼーション
(2)長コンテキストメモリ:拡張シーケンスを処理するためのパラメータ効率とコンテキスト利用効率
(3)パラメータメモリ変更:モデルの編集、忘却、継続学習
(4)マルチソースメモリ:異種テキストソースとマルチモーダル入力の統合
論文リンク:https://arxiv.org/abs/2505.00675
論文タイトル:Rethinking Memory in AI: Taxonomy, Operations, Topics, and Future Directions
4、LLMのエンジニアリング分野でのブレークスルー:モデルに高出力ロケット設計を教える
研究者たちは、高出力ロケット設計における大規模言語モデルの能力を評価するためのRocketBenchと呼ばれるベンチマークを開発しました。このテストには、目標高度最適化と精密着陸チャレンジという2つの段階的に複雑な設計タスクが含まれます。
研究により、最先端のLLMは強力な基礎的なエンジニアリング知識を示したものの、シミュレーション結果を受けて設計を反復的に改善することに苦労し、最終的には人間レベルを下回る性能でした。しかし、強化学習によって強化された場合、わずか7Bパラメータのモデルが最先端のベースモデルと人間の専門家の両方を凌駕しました。
強化学習でトレーニングされたモデルは、12メートル以内の精密着陸を達成し、モデルアーキテクチャが比較的単純であるにも関わらず、複数の指標で人間の設計を継続的に上回りました。この研究は、強化学習でトレーニングされたLLMが複雑なエンジニアリング最適化の効果的なツールとして機能し、ソフトウェア開発以外のエンジニアリング分野を変革する可能性を秘めていることを証明しています。
論文タイトル:LLMs for Engineering: Teaching Models to Design High Powered Rockets
論文リンク:https://arxiv.org/abs/2504.19394
5、ReXGradient-160K:史上最大の公開胸部X線データセット
患者数で数えると、ReXGradient-160Kデータセットはこれまでに公開された胸部X線データセットの中で最大です。このデータセットには、米国の3つの医療システム(79の医療サイト)の109,487人のユニークな患者から収集された160,000件の胸部X線研究と対になった放射線レポートが含まれています。
この包括的なデータセットには、各研究に対する複数の画像と詳細な放射線レポートが含まれており、医療画像AIシステムおよび自動レポート生成モデルの開発と評価に特に価値があります。データセットは、トレーニングセット(140,000件の研究)、検証セット(10,000件の研究)、公開テストセット(10,000件の研究)に分割されており、ReXrankベンチマークに対するモデル評価のために追加のプライベートテストセット(10,000件の研究)も用意されています。
研究チームは、この広範なデータセットを提供することで、医療画像AI研究を加速し、自動放射線分析の最先端技術を進展させることを目指しています。このデータセットはHugging Faceでオープンソース化される予定です。
論文タイトル:ReXGradient-160K: A Large-Scale Publicly Available Dataset of Chest Radiographs with Free-text Reports
論文リンク:https://arxiv.org/abs/2505.00228
おすすめ記事
1ショット強化学習の驚異的な効果、UniversalRAGクロスモーダル検索の大ブレークスルー、Mem0:スケーラブルな長期記憶を持つAIエージェントの構築
例は1つで十分?強化学習はわずか1つのトレーニングサンプルでLLM推論能力を劇的に向上させる
Phi-4-reasoning:マイクロソフトの14Bパラメータ推論モデルが大規模オープンソースモデルに挑戦、MiMo-7B:シャオミのオープンソース推論モデル