QwenLong-L1-32B 是首個專為長上下文推理設計,並經由強化學習(RL)訓練的長上下文語言推理模型(LRM)。
在七項長上下文文件問答(DocQA)基準測試中的實驗結果顯示,QwenLong-L1-32B 優於旗艦級的 LRM 模型,例如 OpenAI-o3-mini 和 Qwen3-235B-A22B,其性能可與 Claude-3.7-Sonnet-Thinking 媲美,並在目前最先進的 LRM 中表現領先。
開源網址:https://huggingface.co/Tongyi-Zhiwen/QwenLong-L1-32B
專案網址:https://github.com/Tongyi-Zhiwen/QwenLong-L1
還有資料集:https://huggingface.co/datasets/Tongyi-Zhiwen/DocQA-RL-1.6K
R1 的含金量還是太高了~
最大長度支援 120k