カテゴリー: 機械学習
- コスト8000ドル以下!Sina Weiboの1.5B小型モデルが数千億パラメータモデルを超える
- AIが18世紀の「謎の帳簿」を瞬時に解読!Googleの新モデルがブラインドテストで話題に
- 上海交通大学博士の最新考察:2つの質問だけで強化学習を明確にする
- Metaが発見:RAGシステムの遅延は無駄な作業が多すぎることが原因
- AIは本当に癌を克服しようとしているのか?Googleが2日間で2つのブレークスルーを発表
- 手動アノテーションを不要に!華人チームがマルチモーダル大規模モデルの自己進化アルゴリズムを提案
- NTUらがA-MemGuardを発表:AIメモリをロックし、ポイズニング攻撃の成功率を95%以上削減
- 再帰的推論HRMモデルがさらなる進化!TRMの2層ネットワーク(7Mモデル)がLLMを凌駕!
- MicrosoftがGRPO-RoCを提案:エージェント型強化学習の鍵は軌跡品質フィルタリング
- ByteDance、LLM強化学習における「エントロピー」の呪いを打破し、モデルの確実な成長を可能に!
- スタンフォード大学の最新研究:最強LLMでさえ最先端コードに苦戦!Gemini 2.5 Proの成功率は40%未満
- 数学ランキングを席巻するLLM、会話の仕方を忘れる?CMUらがSFTとRLの驚くべき違いを明らかに!
- 報酬モデルの新たな革命!SWIFTはテキストではなく「心の声」を読み取り、高速かつ強力で経済的なAI評価者を生み出す
- 強化学習フレームワークの進化と開発トレンド
- GPT-5とスケーリング法則の破綻?毕樹超:データ構造と客観的法則を反映しているため、常に有効である
- AIバグ修正の新たなSOTA:SWE-Bench Liteで60.33%の修正率、人間のように経験を蓄積可能、中国科学院ソフトウェア研究所が開発
- ReaGAN:グラフ内の各ノードをインテリジェントな推論エキスパートにする
- 人間によるアノテーションを超えて:MetaがCoT-Self-Instructを発表 – 「推論的自己進化」でLLMトレーニングを再構築する方法
- Dualformer:ランダム化された推論軌跡学習による制御可能な高速思考と低速思考
- マルチモーダル大規模言語モデルは本当に世界を「理解」しているのか?——MLLMの核心知識の欠陥を解き明かす
- 数学訓練はどのようにして大規模モデルの汎用推論能力を「解き放つ」のか?最新の研究が鍵となるメカニズムを解明
- アンドリュー・ン氏、LLMの「後学習」無料コースを公開:SFT、DPO、RLの3つの主要なチューニング手法を網羅
- 継続強化学習技術に関する最新の調査
- アリババが深夜に「切り札」エージェントをオープンソース化!OpenAIに真っ向勝負、性能は全面的にSOTAを達成!
- RAG開発者必見 Googleの新論文MUVERA:多ベクトル検索を単一ベクトル検索と同じ速さで