别再只盯着“AO”两家的新模型大战了!谷歌刚刚发布了一款名为DiffusionGemma的新模型,这款模型将生成图片的扩散模型应用到了文字生成上,并实现了4倍加速。

DiffusionGemma抛弃了传统的自回归模式,即逐个token生成的方式,而是采用类似“印刷机”的工作方式。它一次铺开256个token的“画布”,从随机噪声出发,通过多轮去噪,使整段文字同时浮现。这种新模式在生成速度方面表现出色:单块H100上每秒可生成1000多个tokens,在消费级RTX 5090上也能达到700多个tokens,比同规格自回归模型快了4倍。此外,这个26B参数的MoE模型在推理时只需激活3.8B参数,量化后仅需18GB显存即可运行,一张4090显卡就能本地跑。

目前,DiffusionGemma采用了允许商用的Apache 2.0开源协议,权重可在Hugging Face直接下载。

DiffusionGemma的最大优势在于其生成速度。在同一块H100上(fp8,batch size=1),DiffusionGemma的速度达到了1000+ tokens/s,而标准自回归的Gemma 4 26B A4B加上MTP加速也只有300+ tokens/s,速度差距近4倍。

![女子试衣时被掀帘 女装店致歉 隐私泄露引关注[快讯]](http://cn.gzbj58.com/file/upload/202606/22/234640451.jpg)
![7座面包车塞9人乘客称小孩不算人 超员被查后乘客要求交警送回家[快讯]](http://cn.gzbj58.com/file/upload/202606/22/135428341.jpg)
![曝哈尔滕施泰因预计将继续留在雷霆 球队选项或新合同待定[快讯]](http://cn.gzbj58.com/file/upload/202606/22/135533951.jpg)
