扩散语言模型写代码！速度比自回归快10倍

扩散语言模型写代码！速度比自回归快10倍

2025-07-17 11:05

闻乐发自凹非寺
量子位 | 公众号 QbitAI

谁说扩散模型只能生成图像和视频？

现在它们能高质量地写代码了，速度还比传统大模型更快！

Inception Labs推出基于扩散技术的全新商业级大语言模型——Mercury。

Mercury突破了自回归模型 “从左到右” 逐词生成的限制，采用 “从噪声到结构化输出” 的方式，能一次性预测所有方向的token，提高了生成速度。

这样一来，Mercury还解决了自回归“一旦生成难以回头调整”的问题。

扩散模型并不是仅考虑前面已经生成的内容，它能在生成过程中进行动态纠错修改，具有更大的灵活性。

尽管采用了扩散技术，Mercury模型系列仍保留了Transformer架构。

这确保了该模型能直接复用近年来为大语言模型开发的高效训练、推理优化技术（如低阶算子优化、超参数调优工具等）。

实测数据显示，面对相同的编程任务，Mercury的代码生成速度比传统工具最多快10倍，大幅缩短了开发周期。

Mercury用成熟的Transformer作为神经网络基础，结合扩散技术的并行生成能力，既保留了大模型的兼容性，又突破了自回归模型逐词生成的速度限制。

Mercury的核心创新在于 “扩散式生成”，流程如下：

训练阶段的正向过程：从真实文本（如代码片段）出发，逐步加入噪声（随机替换、删除token等），最终变成完全随机的噪声序列。
推理阶段的反向过程（核心）：从随机噪声开始，通过Transformer模型迭代优化，逐步去除噪声，最终生成符合真实分布的文本。每次迭代中，模型会并行修改多个token，而非逐词生成。

这一过程扩展了此前的离散扩散方法，通过优化数据处理和计算逻辑，实现了大规模训练（万亿级token）。

Mercury主要通过并行化文本生成、动态去噪调度、混合精度量化等技术，极致发挥GPU性能，实现对硬件的高效利用，降低训练和推理成本。

扩散机制允许模型在单次前向传播中预测多个token，相较于自回归模型的“从左到右”逐词生成，显著提升了GPU利用率。

在NVIDIA H100 GPU上，Mercury Coder Mini和Mercury Coder Small（Mercury Coder系列编码优化产品）分别实现了1109 tokens/秒和737 tokens/秒的吞吐量。