4B 小型模型的能力極限在哪裡?
最新模型 Jan-nano 引發熱議,它在智慧型代理任務上超越了 671B 的最新版 DeepSeek-V3 0528,在 SimpleQA 基準測試中獲得了 80.7 分。
首先來看看它的實際表現,包含兩個任務:
研究某公司目前的擴張情況,該公司的擴張正威脅著另一家公司的市場份額,並撰寫一份可能影響金融公司盡職調查流程的 MBA 級別報告。
彙總今日財經突發新聞,聚焦令人震驚的消息。
總結來說,Jan-nano 的能力包含:
在正確的提示詞下,可以進行深度研究
從搜尋結果中有效率地獲取相關資訊
針對 MCP 協定優化,可無縫整合各種 MCP 伺服器呼叫工具
接著來看看官方評估結果,與它同台競技的不是閉源方案就是 DeepSeek-v3 這樣 671B 的大型 MoE 模型。
目前 Jan-nano 取得了最高分 80.7%,並且作者透露下一個版本的目標是 85%。
不過研究團隊 Menlo Research 特別提醒大家,Jan-Nano 僅在單一指標上優於 Deepseek-671B,而且在測試中使用了基於 MCP 的方法。
我們完全理解 4B 模型有其局限性,但看看它能發展到什麼程度總是有趣的。
具體來說,Jan-nano 在 Qwen3-4B 上使用了字節跳動與清華大學開源的 DAPO 強化學習微調方法。
團隊表示將很快發佈詳細的技術報告,敬請期待。
Menlo Research 是誰?
Menlo Research 是一個專注於 AI 和機器人技術的開放研發實驗室,其主要目標是構建機器人的「大腦」。
創辦人是一對夫妻 Daniel Ong 和 Nicole Zhu,Nicole Zhu 在史丹佛大學攻讀人機互動碩士期間休學創業,此前曾在 Google 擔任高級工程師。
Menlo Research 堅持使用者擁有原則,產品都是開源的,設計為離線運行或自我託管。
此前 Menlo Research 的核心產品是 Jan,一個可以 100% 離線運行的開源 AI 助理應用程式。
Jan 被定位為 ChatGPT 的替代品,曾在推出數月後,在沒有風險投資支持的情況下,下載量超過百萬次。
Jan 的長遠願景是成為「自主驅動電腦」,實現從使用者操作電腦到電腦自主操作的轉變,具體來說,規劃中的能力包含:
將使用者指令轉化為直接行動
跨應用程式工作,無需手動切換
學習使用者的特定工作模式
自主完成重複性任務
此外,Menlo Research 還在新加坡 Echelon 展會上展出了一款人形機器人。
Jan-nano 模型下載:https://huggingface.co/Menlo/Jan-nano
Menlo Research:https://menlo.ai
參考連結:[1]https://www.reddit.com/r/LocalLLaMA/comments/1lbrnod/jannano_a_4b_model_that_can_outperform_671b_on_mcp/