4B Qwen3 逆襲 671B DeepSeek!字節跳動 DAPO 微調方法真有這麼猛嗎?

4B 小型模型的能力極限在哪裡?

最新模型 Jan-nano 引發熱議,它在智慧型代理任務上超越了 671B 的最新版 DeepSeek-V3 0528,在 SimpleQA 基準測試中獲得了 80.7 分。

圖片

首先來看看它的實際表現,包含兩個任務:

研究某公司目前的擴張情況,該公司的擴張正威脅著另一家公司的市場份額,並撰寫一份可能影響金融公司盡職調查流程的 MBA 級別報告。

彙總今日財經突發新聞,聚焦令人震驚的消息。

總結來說,Jan-nano 的能力包含:

在正確的提示詞下,可以進行深度研究

從搜尋結果中有效率地獲取相關資訊

針對 MCP 協定優化,可無縫整合各種 MCP 伺服器呼叫工具

接著來看看官方評估結果,與它同台競技的不是閉源方案就是 DeepSeek-v3 這樣 671B 的大型 MoE 模型。

圖片

目前 Jan-nano 取得了最高分 80.7%,並且作者透露下一個版本的目標是 85%。

圖片

不過研究團隊 Menlo Research 特別提醒大家,Jan-Nano 僅在單一指標上優於 Deepseek-671B,而且在測試中使用了基於 MCP 的方法。

我們完全理解 4B 模型有其局限性,但看看它能發展到什麼程度總是有趣的。

具體來說,Jan-nano 在 Qwen3-4B 上使用了字節跳動與清華大學開源的 DAPO 強化學習微調方法。

圖片

團隊表示將很快發佈詳細的技術報告,敬請期待。

Menlo Research 是誰?

Menlo Research 是一個專注於 AI 和機器人技術的開放研發實驗室,其主要目標是構建機器人的「大腦」。

創辦人是一對夫妻 Daniel Ong 和 Nicole Zhu,Nicole Zhu 在史丹佛大學攻讀人機互動碩士期間休學創業,此前曾在 Google 擔任高級工程師。

圖片

Menlo Research 堅持使用者擁有原則,產品都是開源的,設計為離線運行或自我託管。

圖片

此前 Menlo Research 的核心產品是 Jan,一個可以 100% 離線運行的開源 AI 助理應用程式。

Jan 被定位為 ChatGPT 的替代品,曾在推出數月後,在沒有風險投資支持的情況下,下載量超過百萬次。

圖片

Jan 的長遠願景是成為「自主驅動電腦」,實現從使用者操作電腦到電腦自主操作的轉變,具體來說,規劃中的能力包含:

將使用者指令轉化為直接行動

跨應用程式工作,無需手動切換

學習使用者的特定工作模式

自主完成重複性任務

此外,Menlo Research 還在新加坡 Echelon 展會上展出了一款人形機器人。

圖片

Jan-nano 模型下載:https://huggingface.co/Menlo/Jan-nano

Menlo Research:https://menlo.ai

參考連結:[1]https://www.reddit.com/r/LocalLLaMA/comments/1lbrnod/jannano_a_4b_model_that_can_outperform_671b_on_mcp/

主標籤:人工智慧

次標籤:大型語言模型開源微調小模型


上一篇:Nature 警告:AI「資料飢渴症」引爆學術網站癱瘓潮!90% 知識庫瀕臨崩潰

下一篇:o3-pro成功挑戰《推箱子》,人類懷舊小遊戲成為大型模型新基準

分享短網址