分享好友 最新资讯首页 最新资讯分类 切换频道
扩散语言模型写代码!速度比自回归快10倍
2025-07-17 11:05

闻乐 发自 凹非寺

量子位 | 公众号 QbitAI

谁说扩散模型只能生成图像和视频?

现在它们能高质量地写代码了,速度还比传统大模型更快!

Inception Labs推出基于扩散技术的全新商业级大语言模型——Mercury

图片

Mercury突破了自回归模型 “从左到右” 逐词生成的限制,采用 “从噪声到结构化输出” 的方式,能一次性预测所有方向的token,提高了生成速度。

这样一来,Mercury还解决了自回归“一旦生成难以回头调整”的问题。

扩散模型并不是仅考虑前面已经生成的内容,它能在生成过程中进行动态纠错修改,具有更大的灵活性。

尽管采用了扩散技术,Mercury模型系列仍保留了Transformer架构。

这确保了该模型能直接复用近年来为大语言模型开发的高效训练、推理优化技术(如低阶算子优化、超参数调优工具等)。

实测数据显示,面对相同的编程任务,Mercury的代码生成速度比传统工具最多快10倍,大幅缩短了开发周期。

Mercury用成熟的Transformer作为神经网络基础,结合扩散技术的并行生成能力,既保留了大模型的兼容性,又突破了自回归模型逐词生成的速度限制。

图片

Mercury的核心创新在于 “扩散式生成”,流程如下:

  1. 训练阶段的正向过程:从真实文本(如代码片段)出发,逐步加入噪声(随机替换、删除token等),最终变成完全随机的噪声序列。

  2. 推理阶段的反向过程(核心):从随机噪声开始,通过Transformer模型迭代优化,逐步去除噪声,最终生成符合真实分布的文本。每次迭代中,模型会并行修改多个token,而非逐词生成。

这一过程扩展了此前的离散扩散方法,通过优化数据处理和计算逻辑,实现了大规模训练(万亿级token)。

Mercury主要通过并行化文本生成、动态去噪调度、混合精度量化等技术,极致发挥GPU性能,实现对硬件的高效利用,降低训练和推理成本。

扩散机制允许模型在单次前向传播中预测多个token,相较于自回归模型的“从左到右”逐词生成,显著提升了GPU利用率。

NVIDIA H100 GPU上,Mercury Coder Mini和Mercury Coder Small(Mercury Coder系列编码优化产品)分别实现了1109 tokens/秒737 tokens/秒的吞吐量。

图片

在Copilot Arena的基准测试中,可将响应时间压缩至其他工具的1/4,同时硬件资源占用减少60%。

图片

Mercury通过自适应调整去噪步数,在简单任务中减少计算量,在复杂任务中保留足够迭代次数,实现精度与效率的平衡,从而更高效地利用硬件资源,避免不必要的计算开销。

模型在推理时可自动切换至低精度计算模式,内存占用减少30%,同时通过残差补偿机制维持输出质量。这让Mercury能在有限的硬件内存条件下运行,且不明显影响性能。

与传统自回归模型 “从左到右” 逐词生成,一旦生成难以回头调整不同,Mercury不受限于仅考虑前面已生成的内容,能够在生成过程中动态修改之前的内容,具有更大的灵活性。

图片

在LLMs出现之前,持续集成/交付(CI/CD)的速度就已经成为一个主要瓶颈,这导致开发人员在测试时把时间浪费在等待拉取请求(PRs)上。

有时,一个更改操作需要在队列中等待数小时,甚至有时会因为不稳定需要重新开始。

Mercury模型在编写代码方面实现了超高速响应,但如果每次代码更改都需要数小时进行测试,那么就像这位网友提出的问题一样:

即使大模型能够以比人类快100倍的速度写代码,但测试速度跟不上的话,这将没有什么意义。

图片

于是问题来了:

如何缓解超快响应速度与当前CI能力不匹配的问题?

一些人认为因为开发人员时间比机器时间昂贵得多,所以可以通过简单地“投入更多机器”来解决CI速度问题。

图片

然而,也有另一些人指出,这对于谷歌等“印钞机”公司可能可行,但对于普通公司来说,CI预算是固定的,增加计算资源并不是一件容易的事情。

Mercury的开发方Inception Labs的三位联合创始人是来自斯坦福、UCLA和康奈尔大学的计算机教授。

其中,Stefano Ermon是扩散模型的共同发明人,他与Sohl-Dickstein等学者共同构建了扩散模型的理论基础,并通过后续研究推动了模型的实用化。

图片

另一位创始人Aditya Grover曾在Meta FAIR担任研究科学家。

攻读博士学位期间,他先后在谷歌DeepMind、微软研究院和OpenAI实习。

图片

Volodymyr Kuleshov曾在2018年获得Arthur Samuel最佳论文奖。

图片

该团队包括来自Google DeepMind、微软、Meta、OpenAI和NVIDIA的资深人士,目前正专注于用扩散技术改进大模型性能。

Inception Labs还开放了Mercury模型的在线体验平台。

图片

感兴趣的朋友可点击下方链接体验~

论文地址:https://arxiv.org/abs/2506.17298Mercury在线体验平台:https://chat.inceptionlabs.ai/

参考链接:https://news.ycombinator.com/item?id=44489690

— 完 —

最新文章
爱马仕又涨价 奢侈品行业两极分化加剧
潮新闻客户端 记者 王景平新年伊始,爱马仕(Hermès)全线产品已完成涨价,整体涨幅在5%—12%。不久前,“一只爱马仕包等于一辆
《原神》充值648元背后的玩家心理:为何胜过单机游戏?
在玩家圈子里,有一个有趣的现象:许多玩家愿意在《》这样的游戏中投入648元,却不愿意花几百元购买一款单机游戏。作为一个从小
关于举办篮球专业体育人才交流活动(第二期)通知
一、组织机构主办单位:张家口市体育局、张家口市教育局承办单位:张家口市体育竞赛管理中心协办单位:河北北方学院二、时间、地
一文看懂:比特币是什么?凭什么一枚比特币价值70万元人民币?
在未曾深入探究之前,比特币于我而言,仅是一种时常在新闻中闪烁其名的虚拟货币,伴随着市场风云变幻的暴涨暴跌,以及那些或真或
智能手机“混战”2025:谁将倒下而谁又将突围?
【潮汐商业评论原创】“去年做手机比较艰难,几乎每个品牌都在调价、压货,像华为这种以前都不给我们分货的厂商,也开始成为我的
篮球少年集结成长!2025宏远篮球冬令营火热招募
广东宏远篮球训练营是宏远篮球俱乐部旗下唯一青少年篮球培训机构,与国内重点体校、重点大学、中学建立合作关系,铺设人才输送渠
微信小游戏推出暑期限时激励,最高可得500万激励
今(25)日,2025年微信小游戏开发者大会在重庆举行。会上,微信小游戏平台分享了生态全景、用户观察和获客增长、广告变现等全新
涉及家家利、万福隆等店!晋中平遥市场监督管理局最新发布!
平遥县市场监督管理局2024年食品安全监督抽检信息公告(第10期)本期公布65批次监督抽检结果,涉及饼干、餐饮食品、淀粉及淀粉制
【新时代文明实践】新会区开展“525心理健康周”医校合作主题系列活动——“我爱我 珍爱生命”
每年的5月25日是心理健康日,“5·25”的谐音即为“我爱我”,提醒每位学生“珍惜生命,关爱自己”。节日的核心内容是:关爱自我
鼎盛之美,佳宴有仪。青岛海尔洲际酒店天下一品中餐厅菜品焕新
汲取泱泱中华文化内涵,青岛海尔洲际酒店天下一品中餐厅菜品全面上新!以官府菜中的京鲁菜和淮扬菜为主,同时融进季节性青岛本地
推荐文章