今日AI前沿進展快訊

今日目錄

1、Nemotron:跨領域推理框架

2、Qwen3模型運行與微調指南

3、重塑AI記憶:分類法、操作與未來方向

4、LLM在工程領域的突破:教模型設計高功率火箭

5、ReXGradient-160K:史上最大公開胸部X光數據集

1、Nemotron:NVIDIA推出的跨領域推理框架

Nemotron 跨領域推理框架

最新研究表明,NVIDIA推出的Nemotron-CrossThink框架成功將自學習擴展到數學推理之外的多個領域。該框架通過系統地將多領域語料庫(包括STEM、人文、社科等)納入強化學習訓練,顯著提升了模型在多種推理任務上的泛化能力。

研究結果顯示,Nemotron-CrossThink在數學基準測試(MATH-500提升30.1%,AMC23提升27.5%)和非數學推理基準(MMLU-PRO提升12.8%,GPQA-DIAMOND提升11.3%)上都取得了顯著進步。更令人印象深刻的是,模型同時提高了響應效率——生成正確答案所需的token數量減少了28%,展現出更專注、更有效的推理能力。

研究團隊發現,以2:1的比例混合通用推理與數學數據的訓練方式效果最佳,這證明了結合多領域推理數據可以實現更廣泛的泛化能力。

論文標題:Nemotron-CrossThink: Scaling Self-Learning beyond Math Reasoning

論文連結:https://arxiv.org/abs/2504.13941

2、Qwen3模型運行與微調指南

Qwen3模型運行與微調指南

Qwen3模型系列在推理、指令遵循、代理能力和多語言支持方面實現了最先進的進步。Unsloth團隊為這些模型提供了全新的Dynamic 2.0量化方法,在5-shot MMLU和KL散度基準測試上表現出色,讓用戶可以在保持高精度的同時運行和微調量化版Qwen3模型。

值得注意的是,Qwen3現已支持原生128K上下文長度,通過使用YaRN技術將原始40K窗口擴展到128K。Unsloth還支持Qwen3和Qwen3 MOE模型的微調——速度提高2倍,VRAM佔用減少70%,上下文長度增加8倍。

模型提供了兩種思維模式設置:

非思維模式:溫度=0.7,Top_P=0.8,TopK=20

思維模式:溫度=0.6,Top_P=0.95,TopK=20

用戶可以使用 /think 和 /no_think 命令在對話中切換模型的思維模式,靈活適應不同類型的問題。

教程地址:https://docs.unsloth.ai/basics/qwen3-how-to-run-and-fine-tune

3、重塑AI記憶:分類法、操作與未來方向

AI記憶系統分類法

一項新的綜述研究提出了一個全面的AI記憶系統分類法和框架,將記憶表示分為參數型、上下文結構化和上下文非結構化三類,並介紹了六種基本記憶操作:鞏固、更新、索引、遺忘、檢索和壓縮。

研究系統地將這些操作映射到最相關的研究主題,包括長期記憶、長上下文、參數修改和多源記憶。通過從原子操作和表示類型的角度重新構架記憶系統,該綜述提供了關於AI中記憶研究、基準數據集和工具的結構化和動態視角。

研究團隊通過分析2022-2025年間發表的30000多篇頂級會議論文,揭示了四個關鍵研究主題:

(1)長期記憶:多會話對話系統中的記憶管理、推理和個性化

(2)長上下文記憶:處理擴展序列的參數效率和上下文利用有效性

(3)參數記憶修改:模型編輯、遺忘和持續學習

(4)多源記憶:異質文本源和多模態輸入的集成

論文連結:https://arxiv.org/abs/2505.00675

論文標題:Rethinking Memory in AI: Taxonomy, Operations, Topics, and Future Directions

4、LLM在工程領域的突破:教模型設計高功率火箭

LLMs用於火箭設計

研究人員開發了一個名為RocketBench的基準測試,評估大語言模型在高功率火箭設計方面的能力,測試包括目標高度優化和精確著陸挑戰兩項逐步複雜的設計任務。

研究發現,儘管最先進的大語言模型展示了強大的基礎工程知識,但在接收模擬結果後難以迭代改進設計,最終表現低於人類水平。然而,當通過強化學習增強後,一個僅有7B參數的模型超越了最先進的基礎模型和人類專家

通過強化學習訓練的模型實現了12米內的精確著陸,並在多個指標上持續超越人類設計,儘管模型架構相對簡單。這項研究證明,經過強化學習訓練的大語言模型可以作為複雜工程優化的有效工具,有潛力改變軟體開發之外的工程領域。

論文標題:LLMs for Engineering: Teaching Models to Design High Powered Rockets

論文連結:https://arxiv.org/abs/2504.19394

5、ReXGradient-160K:史上最大公開胸部X光數據集

胸部X光數據集ReXGradient-160K

ReXGradient-160K數據集,這是迄今為止按患者數量計算的最大公開胸部X光數據集。該數據集包含來自3個美國醫療系統(79個醫療站點)109,487名獨特患者的160,000個胸部X光研究和配對放射學報告。

這個綜合數據集包括每項研究的多張圖像和詳細的放射學報告,對於開發和評估醫學影像AI系統和自動報告生成模型特別有價值。數據集被分為訓練集(140,000項研究)、驗證集(10,000項研究)和公共測試集(10,000項研究),還有一個額外的私人測試集(10,000項研究)用於ReXrank基準的模型評估。

研究團隊通過提供這個廣泛的數據集,旨在加速醫學影像AI研究並推進自動放射學分析的最新技術。該數據集將在Hugging Face開源。

論文標題:ReXGradient-160K: A Large-Scale Publicly Available Dataset of Chest Radiographs with Free-text Reports

論文連結:https://arxiv.org/abs/2505.00228

推薦閱讀

1-shot強化學習效果驚人、UniversalRAG跨模態搜索重大突破、Mem0:打造具有可擴展長期記憶的AI agent

一個例子就夠了?強化學習僅需1個訓練樣本即可顯著提升LLM推理能力

Phi-4-reasoning:微軟14B參數推理模型挑戰大型開源模型、MiMo-7B:小米開源的推理模型

主標籤:AI 研究

次標籤:大型語言模型醫療AIAI 記憶AI 推理


上一篇:JetBrains 開源其程式碼補全 LLM Mellum

下一篇:BBC推AI阿嘉莎克莉絲蒂懸疑寫作課,讓傳奇女王「復活」授課

分享短網址