🤖 AI总结
主题
谷歌发布新型扩散文本生成模型DiffusionGemma
摘要
谷歌推出DiffusionGemma,利用扩散技术实现并行文本生成,速度提升4倍,支持本地GPU部署,适合交互式编程等场景。
关键信息
- 1 DiffusionGemma采用扩散技术并行生成文本,速度提升4倍
- 2 模型拥有260亿参数,推理仅激活38亿参数,可在消费级GPU运行
- 3 适用于本地快速交互式编程、代码填充等场景,但输出质量略低于标准版
![]()
即便是目前最强大的大语言模型,在处理任务时依然像在键盘上逐字输入一样,按照从左到右的顺序依次处理内容。然而在本地单用户场景中,这种顺序处理方式往往导致图形处理器(GPU)和张量处理器(TPU)无法得到充分利用。
谷歌押注DiffusionGemma能够突破这一瓶颈。这款全新的实验性开放模型通过扩散技术同时生成整段文本,而非逐Token处理,从而实现”超快速”的文本生成。谷歌表示,与依赖顺序处理的自回归模型相比,这一技术可将推理速度提升4倍。
此外,DiffusionGemma还可以帮助用户降低成本。科技分析师卡米·利维指出,现有的按Token计费模式”会惩罚那些使用效率欠佳AI方案的用户”。他表示,DiffusionGemma”有望开创新一代面向特定任务的高效解决方案,在不消耗大量运营预算的前提下扩展算力”。
技术架构与核心能力
DiffusionGemma基于谷歌的Gemma 4系列及其Gemini Diffusion研究成果构建,是一款拥有260亿参数的混合专家(MoE)模型,专为最大化文本输出生成而设计。
该模型从根本上改变了硬件的使用方式,让处理器在每个周期内承担更大的工作量,能够依序生成完整的256个Token段落。谷歌表示,这使得模型在GPU上的文本生成速度最高可提升4倍。推理过程中仅激活38亿个参数,经量化后可在18GB显存内运行,适配英伟达RTX 5090等高端消费级GPU。
谷歌研究科学家布兰登·奥多诺霍和塞巴斯蒂安·弗莱纳哈根在一篇博文中写道:”这就像把模型推理从一台逐字输出的打字机,升级成一台能同时印出整页内容的大型印刷机。”
AI图像生成器从随机的”视觉噪声”出发,通过迭代优化最终生成图像,这一过程即为”扩散”;DiffusionGemma将同样的机制应用于文本生成。它不按顺序生成Token,而是从”随机占位Token的画布”出发,经过多轮处理,识别最相关的上下文Token,并以此优化其余内容。
该模型还具备自我修正能力,通过置信度评分在下一轮处理中重新评估Token。”模型会对自身输出进行迭代优化,能够一次性评估整个文本块,从而实时修正错误,”两位研究科学家解释道。
DiffusionGemma还具备双向注意力机制。”每次前向传播并行生成256个Token,使每个Token都能与其他所有Token相互关注。”这在具有非线性特征的领域尤为有用,例如数学图形、代码填充和内联编辑。
DiffusionGemma针对英伟达整个硬件栈进行了优化,既兼容消费级设备,也支持Hopper和Blackwell等高性能企业级系统。该模型采用Apache 2.0许可证发布,开发者可自由使用、修改、分发和商业化部署。它可在GPU上本地运行,也可通过谷歌云Model Garden或英伟达NIM在云端部署,并已上架Hugging Face、GitHub和vLLM,开源库llama.cpp的支持即将推出。
适用场景与应用价值
该模型尤其适用于对速度要求较高的本地工作流,例如生成非线性文本结构,并解锁了谷歌所称的”全新模型行为模式”,包括多模态理解以及近实时生成和渲染代码等能力。
利维指出,”DiffusionGemma特别适合交互式编程和编辑场景,其高效性支持快速处理和迭代。”他还提到,该模型能够在18GB显存内运行,并可部署于常见的本地GPU,这对依赖实时交互和本地处理的客户服务场景具有潜在价值。
“DiffusionGemma还内置了思维模式,尤其擅长解决问题,”他补充道。例如,该模型经过微调后可用于解数独——这对自回归模型而言通常是一项挑战,因为每个Token都依赖于后续Token。利维认为,这”相当直观地”展示了该模型处理复杂问题的能力。
权衡与局限
谷歌坦承,DiffusionGemma面向特定工作流设计,存在一定的”关键权衡”。
该模型专为小批量推理及在”单一高性能加速器”上实现低延迟、高速生成而设计。在高并发云服务环境中(基础设施需每秒处理数万乃至数十万次请求并保持超低延迟),DiffusionGemma的并行处理优势”收益递减”,甚至可能带来更高的服务成本。此外,其整体输出质量低于标准版Gemma 4,后者专为追求最高质量的应用场景而构建。
不过,利维指出,尽管DiffusionGemma”在某些工作负载中精度可能不及其他模型”,但通过后续的精炼周期可以克服这一局限。
谷歌未公开运行时成本,但从各方面来看,这显然是一场以效率为核心的布局。利维表示:”在能够充分发挥其架构优势的工作负载中,DiffusionGemma似乎具备降低处理开销和相关成本的潜力。”
Q&A
Q1:DiffusionGemma是什么模型?它和普通大语言模型有什么区别?
A:DiffusionGemma是谷歌发布的一款实验性开放模型,基于Gemma 4系列和Gemini Diffusion研究构建,拥有260亿参数。与传统大语言模型逐Token顺序生成文本不同,DiffusionGemma借鉴AI图像生成的扩散技术,从随机占位Token出发,经多轮迭代同时生成整段文本,推理速度最高可达自回归模型的4倍,并支持双向注意力机制。
Q2:DiffusionGemma对硬件有什么要求?普通用户能用吗?
A:DiffusionGemma推理时仅激活38亿参数,经量化后可在18GB显存内运行,兼容英伟达RTX 5090等高端消费级GPU。它针对英伟达整个硬件栈进行了优化,既支持消费级设备,也支持企业级系统。普通开发者可通过Hugging Face、GitHub、vLLM等平台获取,也可在谷歌云或英伟达NIM上部署,开源库llama.cpp的支持即将上线。
Q3:DiffusionGemma有哪些局限性?适合哪些场景?
A:DiffusionGemma适合本地单用户、速度敏感的工作流,如交互式编程、代码填充、内联编辑及非线性文本生成等场景。但在高并发云服务环境中,其并行处理优势会显著下降,甚至导致更高服务成本。此外,其整体输出质量低于标准版Gemma 4,在对精度要求极高的任务中需谨慎评估。