谷歌发布DiffusionGemma：突破逐Token处理限制的AI新模型

网易专栏15小时前发布 nxnqh

1 0 0

发布时间：2026-06-19 23:07:11

#AI | #DiffusionGemma

来源：网易专栏作者：至顶头条
🔗 查看原文

🤖 AI总结

主题

谷歌发布新型扩散文本生成模型DiffusionGemma

摘要

谷歌推出DiffusionGemma，利用扩散技术实现并行文本生成，速度提升4倍，支持本地GPU部署，适合交互式编程等场景。

关键信息

1 DiffusionGemma采用扩散技术并行生成文本，速度提升4倍
2 模型拥有260亿参数，推理仅激活38亿参数，可在消费级GPU运行
3 适用于本地快速交互式编程、代码填充等场景，但输出质量略低于标准版

谷歌发布DiffusionGemma：突破逐Token处理限制的AI新模型

即便是目前最强大的大语言模型，在处理任务时依然像在键盘上逐字输入一样，按照从左到右的顺序依次处理内容。然而在本地单用户场景中，这种顺序处理方式往往导致图形处理器（GPU）和张量处理器（TPU）无法得到充分利用。

谷歌押注DiffusionGemma能够突破这一瓶颈。这款全新的实验性开放模型通过扩散技术同时生成整段文本，而非逐Token处理，从而实现”超快速”的文本生成。谷歌表示，与依赖顺序处理的自回归模型相比，这一技术可将推理速度提升4倍。

此外，DiffusionGemma还可以帮助用户降低成本。科技分析师卡米·利维指出，现有的按Token计费模式”会惩罚那些使用效率欠佳AI方案的用户”。他表示，DiffusionGemma”有望开创新一代面向特定任务的高效解决方案，在不消耗大量运营预算的前提下扩展算力”。

技术架构与核心能力

DiffusionGemma基于谷歌的Gemma 4系列及其Gemini Diffusion研究成果构建，是一款拥有260亿参数的混合专家（MoE）模型，专为最大化文本输出生成而设计。

该模型从根本上改变了硬件的使用方式，让处理器在每个周期内承担更大的工作量，能够依序生成完整的256个Token段落。谷歌表示，这使得模型在GPU上的文本生成速度最高可提升4倍。推理过程中仅激活38亿个参数，经量化后可在18GB显存内运行，适配英伟达RTX 5090等高端消费级GPU。

谷歌研究科学家布兰登·奥多诺霍和塞巴斯蒂安·弗莱纳哈根在一篇博文中写道：”这就像把模型推理从一台逐字输出的打字机，升级成一台能同时印出整页内容的大型印刷机。”

AI图像生成器从随机的”视觉噪声”出发，通过迭代优化最终生成图像，这一过程即为”扩散”；DiffusionGemma将同样的机制应用于文本生成。它不按顺序生成Token，而是从”随机占位Token的画布”出发，经过多轮处理，识别最相关的上下文Token，并以此优化其余内容。

该模型还具备自我修正能力，通过置信度评分在下一轮处理中重新评估Token。”模型会对自身输出进行迭代优化，能够一次性评估整个文本块，从而实时修正错误，”两位研究科学家解释道。

DiffusionGemma还具备双向注意力机制。”每次前向传播并行生成256个Token，使每个Token都能与其他所有Token相互关注。”这在具有非线性特征的领域尤为有用，例如数学图形、代码填充和内联编辑。

DiffusionGemma针对英伟达整个硬件栈进行了优化，既兼容消费级设备，也支持Hopper和Blackwell等高性能企业级系统。该模型采用Apache 2.0许可证发布，开发者可自由使用、修改、分发和商业化部署。它可在GPU上本地运行，也可通过谷歌云Model Garden或英伟达NIM在云端部署，并已上架Hugging Face、GitHub和vLLM，开源库llama.cpp的支持即将推出。

适用场景与应用价值

该模型尤其适用于对速度要求较高的本地工作流，例如生成非线性文本结构，并解锁了谷歌所称的”全新模型行为模式”，包括多模态理解以及近实时生成和渲染代码等能力。

利维指出，”DiffusionGemma特别适合交互式编程和编辑场景，其高效性支持快速处理和迭代。”他还提到，该模型能够在18GB显存内运行，并可部署于常见的本地GPU，这对依赖实时交互和本地处理的客户服务场景具有潜在价值。

“DiffusionGemma还内置了思维模式，尤其擅长解决问题，”他补充道。例如，该模型经过微调后可用于解数独——这对自回归模型而言通常是一项挑战，因为每个Token都依赖于后续Token。利维认为，这”相当直观地”展示了该模型处理复杂问题的能力。

权衡与局限

谷歌坦承，DiffusionGemma面向特定工作流设计，存在一定的”关键权衡”。

该模型专为小批量推理及在”单一高性能加速器”上实现低延迟、高速生成而设计。在高并发云服务环境中（基础设施需每秒处理数万乃至数十万次请求并保持超低延迟），DiffusionGemma的并行处理优势”收益递减”，甚至可能带来更高的服务成本。此外，其整体输出质量低于标准版Gemma 4，后者专为追求最高质量的应用场景而构建。

不过，利维指出，尽管DiffusionGemma”在某些工作负载中精度可能不及其他模型”，但通过后续的精炼周期可以克服这一局限。

谷歌未公开运行时成本，但从各方面来看，这显然是一场以效率为核心的布局。利维表示：”在能够充分发挥其架构优势的工作负载中，DiffusionGemma似乎具备降低处理开销和相关成本的潜力。”

Q&A

Q1：DiffusionGemma是什么模型？它和普通大语言模型有什么区别？

A：DiffusionGemma是谷歌发布的一款实验性开放模型，基于Gemma 4系列和Gemini Diffusion研究构建，拥有260亿参数。与传统大语言模型逐Token顺序生成文本不同，DiffusionGemma借鉴AI图像生成的扩散技术，从随机占位Token出发，经多轮迭代同时生成整段文本，推理速度最高可达自回归模型的4倍，并支持双向注意力机制。

Q2：DiffusionGemma对硬件有什么要求？普通用户能用吗？

A：DiffusionGemma推理时仅激活38亿参数，经量化后可在18GB显存内运行，兼容英伟达RTX 5090等高端消费级GPU。它针对英伟达整个硬件栈进行了优化，既支持消费级设备，也支持企业级系统。普通开发者可通过Hugging Face、GitHub、vLLM等平台获取，也可在谷歌云或英伟达NIM上部署，开源库llama.cpp的支持即将上线。

Q3：DiffusionGemma有哪些局限性？适合哪些场景？

A：DiffusionGemma适合本地单用户、速度敏感的工作流，如交互式编程、代码填充、内联编辑及非线性文本生成等场景。但在高并发云服务环境中，其并行处理优势会显著下降，甚至导致更高服务成本。此外，其整体输出质量低于标准版Gemma 4，在对精度要求极高的任务中需谨慎评估。

网易专栏 # AI # DiffusionGemma

文章版权归作者所有，未经允许请勿转载。

谷歌发布DiffusionGemma：突破逐Token处理限制的AI新模型

🤖 AI总结

主题

摘要

关键信息

HPE首席技术官深入解析智能体企业的数据、编排与可观测性战略

没有更多了...

相关文章

大模型看Coding，具身看Picking！原力灵机已抢先入局

再融20亿！星海图把具身智能头部门槛抬到了200亿

韬定律：多层电子系统的时间缩放理论，以及3D芯体设想

MiniMax又来吃龙虾肉了！OpenClaw真一键部署，还有上万智能体