英伟达的TiDAR实验可以使用混合扩散解码器加速人工智能令牌的生成——新的研究拥有巨大的吞吐量收益,但限制仍然存在
随着公司、国家和意识形态之间的人工智能竞赛继续快速进行,英伟达发布了一篇描述TiDAR的论文。TiDAR是一种解码方法,融合了两种历史上独立的加速语言模型推理的方法。语言模型一次产生一个标记的文本,其中标记是一小块文本,如单词片段或标点符号。
每个令牌通常都需要通过模型进行完全前向传递,而这一成本主导着运行当今人工智能系统的速度和成本。如果一个模型能够在不损失质量的情况下每一步安全地生成多个令牌,它可能会导致更快的响应时间、更低的图形处理器时间和每个请求的运营成本降低,所有这些都可以为运行大型人工智能部署、运行最新英伟达硬件的运营商节省大量资金。TiDAR研究侧重于第一批解码,并报告了比用于比较的Qwen2.5和Qwen3基线高4到6倍的令牌吞吐量。研究人员评估了15亿和80亿参数模型,并表明可以在不降低编码和数学基准的情况下实现速度提升。尽管这项工作仍处于研究阶段,但它证明了为什么处理单个序列的图形处理器通常可以在不支付额外延迟的情况下每一步计算一个以上令牌的工作价值。该论文加入了一波研究浪潮,试图利用自回归解码期间内存移动和计算之间的不平衡。在H100上,下一代令牌生成通常受到从高带宽内存(HBM)加载模型权重和KV缓存的成本的限制。英伟达通过Qwen3-32B的延迟曲线强调了这一点:当预测令牌位置的数量增加时,总通过时间几乎没有变化,直到GPU变得受计算限制。
那些未使用的令牌维度区域实际上变成了“空闲槽”。TiDAR是围绕一个模型在这些槽内可以做多少有用的工作,同时保持表现良好的下一个令牌预测器的形状的问题构建的。TiDAR旨在同时满足两个分布,它训练一个变压器来并行计算自回归下一个令牌分布和扩散式边际分布。这不是扩散语言模型通常的工作方式。先前的系统,如Dream、Llada和Block Diff,完全依赖于屏蔽块的并行去噪。好处是速度,但随着块长度的增加,准确性会下降,因为模型不再保持严格的链分解。TiDAR试图在不放弃扩散并行性的情况下恢复这种结构。
这是通过将输入分成三个区域的结构化注意力掩码来实现的。接受的前缀表现得像任何因果序列,并提供模型在步骤之间缓存的键和值。先前起草的标记块使用双向注意力,让模型在自回归分布下验证它们。第二个填充掩码标记的块等待扩散预测器,它并行提出了几个新的候选草案。
然后解码变成一个两阶段循环。首先,扩散头填充掩蔽区域。在下一次传递中,模型使用其自回归头检查这些草稿。接受的标记扩展前缀。拒绝的标记在同一步骤中处理,因为模型已经学会预测前一轮的每一条接受路径。在同一次传递中,扩散头起草下一个块。该方案的关键是前缀的因果结构确保KV缓存保持有效,解决了早期基于扩散的解码器面临的主要部署问题之一。
训练从现有的Qwen检查点继续进行。作者通过附加原始序列的完全掩码副本将序列长度加倍,并计算两半的自回归和扩散损失。所有扩散令牌都是掩码令牌,它保持了目标的密集性,避免了复杂噪声时间表的需要,并且该过程使用4096令牌最大上下文窗口应用于15亿和80亿参数骨干网。速度明显提高,但模型大小是一个限制因素在人类进化、MBPP、GSM8K和密涅瓦变体上,TiDAR的准确性与训练中使用的Qwen基线相匹配或略有提高。15亿参数TiDAR模型平均每次前向传递生成约7.5个令牌。80亿版本平均略高于8个。 这些平均值转化为显著的吞吐量增益,较小模型的吞吐量增益为Qwen2每秒令牌的4.71倍。5-1.5B,较大模型的吞吐量增益为Qwen38B的5.91倍。
在与Dream、Block Diffsion、Llada和基于EAGLE-style草稿验证的推测解码的直接比较中,TiDAR在论文的测试套件中提供了速度和基准准确性之间的最佳平衡。
考虑到这种机制,这些结果是有意义的。TiDAR执行多个预测任务,而模型的权重和缓存的键和值已经驻留在内存中,因此无需额外的内存移动就可以生成更多的令牌。在测试的小规模下,GPU在多个位置上保持内存受限而不是计算受限,从而允许多令牌扩展高效运行。大型模型大小仍未测试最终,模型大小似乎是一个限制因素。尽管论文显示TiDAR使用Qwen3-32B分析,但该方法的演示参数不超过80亿个。“自由令牌槽”的行为取决于计算密度和内存带宽之间的平衡。在张量并行模式下运行的大型模型可能会在令牌维度的早期使计算饱和,从而减少多令牌扩展成本低廉的范围。作者承认这一点,并将长期背景和大规模实验标记为未来的工作。
最后,作者在单个H100上使用标准PyTorch和FlexNote运行所有推理,没有任何定制的融合内核或低级优化。这在加速技术之间建立了公平的比较,但使绝对吞吐量数据不完整。当在内核级别进行调整时,像Medusa、EAGLE-3和优化的推测解码器这样的系统显示出更高的速度。TiDAR可能会从类似的工程中受益,但这项工作仍在进行中。一种可以重塑解码TiDAR的方法代表了尝试合并两个占主导地位的多令牌解码技术家族。作者没有像推测解码那样依赖单独的草稿模型,也没有像仅扩散方法那样放弃链分解,而是提出了一个学习两种行为的单一主干网。好处是推理时的简单性和模型占用空间的减少。权衡在小范围内似乎是可管理的,并且该方法切实展示了在下一代令牌生成期间现代GPU中有多少未使用的并行性。
“可能”完全取决于TiDAR能否扩展。如果它的训练配方可以应用于大型模型,而不会破坏优化的稳定性或耗尽内存预算,它可以提供一条途径,在云设置中提高每GPU吞吐量,并降低消费者GPU上本地推理的延迟。另一方面,如果一旦参数计数和上下文窗口扩大,“空闲插槽”区域就会缩小,那么TiDAR可能会成为一项有用的研究,而不是推测解码或多头方法的实际替代品。
这篇论文成功地表明,自回归和扩散预测器不需要存在于单独的网络中。单个转换器可以同时学习两者,并且可以在不丢弃使下一代令牌大规模可行的KV缓存结构的情况下做到这一点。
这对推理加速是一个有意义的贡献,当架构被推到商业模型运行的大小范围并且内存带宽不再隐藏扩展令牌维度的成本时,真正的考验将会到来。








英伟达的TiDAR实验可以使用混合扩散解码器加速人工智能令牌的生成——新的研究拥有巨大的吞吐量收益,但限制仍然存在