Qwen突破:用「平行計算」代替「堆參數」,新方法記憶體降22倍、延遲降6倍

MLNLP社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。

社区的愿景是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。

来源 | 深度学习自然语言处理

图片

论文:Parallel Scaling Law for Language Models链接:https://arxiv.org/pdf/2505.10475

LLM 的进化一直依赖「堆参数」,但模型越大,问题越明显:

训练成本爆炸:千亿参数模型训练需耗费千万度电

推理速度慢:生成一句话要等几十秒

手机跑不动:显存要求动辄上百G,普通设备无法部署

图片

最近提出的「Test Time Scaling」虽能提升性能,但需要生成数百个中间步骤,反而更慢。学者们不禁思考:有没有既高效又省资源的扩展方式?

ParScale的突破思路:用「并行计算」代替「堆参数」

这篇论文的核心创新点在于——让同一个模型「分头思考」。

传统方法:一个模型「单线程」计算

ParScale:复制输入并添加不同「思考前缀」,同时跑P个计算流

动态融合:用LLM自动给不同思考结果打分,加权合成最终答案

图片

举个通俗例子:就像让10个专家同时解同一道题,再根据他们的解题过程动态选最优解,而不是只问一个超级专家。

核心:动态加权融合

关键公式藏在论文的Proposition 1中:模型损失与并行流数量P呈对数关系

(N为参数量,P为并行流数)

这意味着:

并行计算的效果≈参数量的对数级增长

开8个并行流 ≈ 参数翻3倍的效果

但实际增加的硬件成本微乎其微

图片

图片

实验结果:推理效率提升22倍

论文在42B token数据上训练了67个模型,结论炸裂:

性能比肩参数扩展:1.6B参数+8并行流 ≈ 4.4B参数模型

推理成本暴降:

内存占用减少22倍

延迟降低6倍

数学推理暴涨34%:GSM8K等复杂任务提升最明显

不同批量下的内存/延迟对比,蓝色箭头为传统扩展,灰色为ParScale

不同批量下的内存/延迟对比,蓝色箭头为传统扩展,灰色为ParScale

更绝的是,旧模型也能改造!用少量数据微调即可让已有模型支持并行计算,堪称「老模型返老还童术」。

落地价值巨大:手机都能跑「LLM」

这项技术最颠覆的应用场景是边缘设备:

手机/汽车只需加载一个小模型,开多个并行流就能获得大模型性能

动态调节并行数:聊天时开2个流,解数学题时开8个流

成本优势碾压:显示其综合成本仅为传统方法的1/6图片

未来咱们的手机助手可能既是「生活管家」又是「数学老师」,却完全不卡!

畅想下未来:模型的「算力永动机」

ParScale揭示了一个深层规律:模型能力不只取决于参数,更取决于计算方式。这打开了新世界的大门:

动态扩展:根据任务难度实时调整并行数

混合架构:MoE+ParScale双剑合璧

跨领域应用:图像生成、蛋白质预测均可借鉴

参数与并行计算对模型能力的贡献比例

参数与并行计算对模型能力的贡献比例

或许未来AI进化的关键不再是「造更大的模型」,而是「更聪明地使用算力」。

这篇真的是个巨作!划时代!好样的,Qwen~

技术交流群邀请函

图片

△长按添加小助手

扫描二维码添加小助手微信

请备注:姓名-学校/公司-研究方向

(如:小张-哈工大-对话系统)

即可申请加入自然语言处理/Pytorch等技术交流群

关于我们

MLNLP社区是由国内外机器学习与自然语言处理学者联合构建的民间学术社区,目前已经发展为国内外知名的机器学习与自然语言处理社区,旨在促进机器学习,自然语言处理学术界、产业界和广大爱好者之间的进步。

社区可以为相关从业者的深造、就业及研究等方面提供开放交流平台。欢迎大家关注和加入我们。

图片

主標籤:大型語言模型

次標籤:平行計算AI 研究邊緣計算推理優化


上一篇:Google 可自我發現演算法 AlphaEvolve 的開源實現:OpenAplha_Evolve

下一篇:為什麼我們不太可能很快獲得通用人工智慧

分享短網址