🤖 AI总结
主题
北大清华联合研究提出DPVR-LF架构,解决多模态大模型中图片信息过早饱和问题。
摘要
北大清华联合研究提出DPVR-LF架构,通过双轨分流解决图片信息过早饱和问题,仅用3%可训练参数节省28%计算量,性能与原模型持平或略优。
关键信息
- 1 图片信息在LLaVA模型第18层后几乎无变化。
- 2 DPVR-LF通过双轨分流,让图片提前下车,节省约28%计算量。
- 3 仅需3%可训练参数,性能与原模型持平或略优。
![]()
这项由北京大学力学与工程科学学院和清华大学自动化系联合开展的研究,以预印本形式于2026年6月发布在arXiv平台,编号为arXiv:2606.09131,目前提交至Elsevier旗下期刊审核。感兴趣的读者可通过该编号查询完整论文。
一、一个被忽视已久的”资源浪费”问题
当你去餐厅点了一道菜,厨师在菜做好之后,却仍然不停地往锅里翻炒、加热、反复调味——哪怕味道早已定型,这样做除了浪费燃气,什么都改变不了。这个场景,恰恰就是当前主流的多模态大语言模型(也就是那些能同时理解图片和文字的AI助手)在”处理图片信息”时每天都在做的事情。
过去几年,以LLaVA、Qwen-VL、MiniGPT-4为代表的多模态AI系统迅速崛起。这类系统的工作方式大致是这样的:把一张图片和一段文字同时”喂”给一个巨大的神经网络(可以把它想象成一条极深的流水线,有32甚至40个处理站),图片信息和文字信息从第一个处理站出发,一路并肩走到最后一个处理站,每一站都接受相同强度的”加工”。这种设计的初衷是简单实用——毕竟这条流水线原本是为纯文字设计的,把图片信息直接混进去一起处理,省去了专门建造图片通道的麻烦。
然而,北京大学与清华大学的研究团队发现,这种”一视同仁”的设计背后隐藏着一个根本性的误判:图片信息和文字信息根本不是同一类东西,它们对”深度加工”的需求截然不同。文字是离散的符号,每个词的意思需要结合上下文、语法结构、逻辑关系反复推敲,越深的处理站越能挖掘出更丰富的语义。但图片是连续的视觉信号,包含大量重复、冗余的像素区块,它的”核心意思”其实很早就提炼完毕了,后续的重复加工几乎没有新增价值——就像那锅早已做好的菜,继续翻炒只是浪费火力。
这就是该研究要解决的核心问题:既然图片信息在流水线中途就已经”饱和”,我们为什么还要强迫它走完全程?
二、三把”听诊器”,听出图片信息的”过早饱和”
为了验证这个直觉,研究团队设计了一次系统性的”体检”——他们从LLaVA-665k数据集中随机抽取了500个包含图片和文字的真实样本,让原版LLaVA-1.5-7B模型逐层处理这些样本,同时在每一个处理站安装了三种不同的”传感器”,从三个完全不同的角度记录图片信息和文字信息在每一层的状态变化。
第一种传感器测量的是”相邻两层之间的变化幅度”,用一个叫做”余弦相似度”的指标来衡量——可以把它理解为前后两帧画面的差异程度,数值越接近1.0说明变化越小、越接近静止。结果发现,图片信息从第0层开始,相邻层之间的相似度就稳定在0.92以上,也就是说每经过一个处理站,图片信息几乎纹丝未动。相比之下,文字信息在深层处理站中仍然保持着明显的变化,说明文字在越来越深的层次里持续被”打磨”和”提炼”。
第二种传感器追踪的是”文字在多大程度上关注图片”,用”文字到图片的注意力权重”来衡量。这个指标可以理解为:当AI在生成文字回答时,它有多少心思放在图片上?数据相当触目惊心——在第0层,文字对图片的关注度高达0.68,也就是说大约68%的注意力都投向了图片;但仅仅经过4个处理站,这个数字就崩塌到0.07,降幅达到十倍;到了第18层之后,这个数字稳定在0.04附近,几乎再也不动了。这意味着,流水线过了前几站之后,文字实际上几乎不再”看”图片了——图片信息在深层处理中已经变成了被冷落的乘客。
第三种传感器使用了一种叫做”Logit Lens”(逻辑透镜)的分析工具——可以把它理解为一种”预言机”,它能在每一层处理站停下来问:如果现在就让AI输出答案,它的预测结果和最终答案差多远?当这个差距收窄到某个阈值时,就说明该类型的信息已经”成熟”可以输出了。分析结果显示,图片信息在第22层就达到了这个成熟阈值,而文字信息则要到第23层才达到——图片比文字早一层”成熟”,但两者都集中在深层区域,而整个模型共有32层。
三把传感器指向了同一个结论:图片信息在第18层前后便已进入”饱和区”,后续的13层处理对图片而言几乎是在做无用功;而文字信息直到最后几层仍在持续演化,需要完整的深度加工。这种”图片早熟、文字晚熟”的现象,研究团队将其命名为”视觉饱和”(Visual Saturation)。
三、一个聪明的”双轨分流”方案
发现了问题,自然要想办法解决。研究团队提出的方案叫做DPVR(Dual-Path Vision Token Routing,双路径视觉词元路由),核心思想用一句话来说就是:让图片信息在”饱和点”提前下车,走一条短平快的专用通道;文字信息继续乘坐原来的深层流水线走完全程;最后在终点站重新会合,共同参与最后一次融合处理。
具体的实施方案叫做DPVR-LF(Late-Layer Fusion,晚期融合)。以7B(70亿参数)规模的模型为例,整个处理过程分为四个阶段,就像一条精心设计的生产流程。
第一阶段是共同旅程:图片信息和文字信息从第0层出发,一起经过前18个处理站(第0到第17层),接受完全相同的处理。这个阶段是共用的,两类信息肩并肩走过早期的基础特征提取阶段。
第二阶段是图片”下车”:在第18层这个关键节点,图片信息从主流水线上”下车”,转入一个专门为它准备的单层”侧支通道”——一个独立的、可训练的Transformer模块(可以把它想象成一个精炼工坊,专门对已经较为成熟的图片表示做最后的精加工)。这个侧支通道只有一层,参数量约为2亿(202M),只占整个7B模型参数总量的约3%。
第三阶段是文字独自深潜:图片信息在侧支通道处理的同时,文字信息继续沿着主流水线前行,独自经过第18层到第30层共13个深层处理站。在这13层里,文字信息的处理完全不受图片的干扰,可以全力进行语义推理、逻辑组合和语言生成的深层运算。图片位置在这13层中被完全跳过,计算资源全部用在文字上。
第四阶段是最后的融合:在第31层(最后一层),侧支通道处理好的图片表示被重新”拼回”到图片对应的位置,和深层加工完毕的文字信息一起,经历最后一次完整的注意力计算——在这一层里,文字可以重新”看”图片,实现最终的图文信息融合,然后输出答案。
这个设计的精妙之处在于,它用极小的结构改动(只增加一个单层侧支模块,冻结其余参数)实现了对计算资源的大幅度重新分配,同时保留了一条从图片信息到训练损失函数的梯度反传路径,使得模型仍然可以正常训练。
四、”最后一层融合就够了”——但为什么呢?
读到这里,你可能会产生一个疑问:只在最后一层让文字”看”一眼图片,这真的够吗?毕竟前面13层文字都在”单飞”,没有图片的陪伴,会不会丢失很多视觉信息?
研究团队对这个问题给出了两个层面的回答,一个是理论推导,一个是实验验证。
从理论上看,之所以必须保留最后一层的图文融合,是因为LLaVA系列模型在训练时有一个特定的规则:损失函数只计算”助手回答”部分的预测误差,图片位置、系统提示、用户问题的位置标签全部被设置为”-100″(意思是”忽略这里”)。这意味着,如果图片信息在最后一层之前从未和文字发生过任何交互,那么在反向传播时,梯度根本无法流回图片侧支通道,侧支模块就等于在空转、根本学不到任何东西。一旦在最后一层加入图文融合,文字的查询向量就会通过注意力机制”触碰”图片的键值投影,梯度路径就此打通,侧支模块才能真正接收训练信号。
从实验上看,研究团队直接测量了训练好的DPVR-LF模型在最后这个融合层上的”图文注意力集中度”。结果显示,在这个唯一的融合层上,文字对图片的平均注意力权重达到0.388,而原版LLaVA在同一层的对应数值只有0.219——前者是后者的1.77倍。换句话说,融合层在知道自己是”唯一机会”的情况下,学会了把更多注意力集中在图片上,充分弥补了前面13层”无图”处理留下的信息缺口。这种自适应的注意力重分配,正是该设计得以奏效的关键机制。
五、与”竞争对手”的正面比较
为了更清晰地展示DPVR-LF的优势,研究团队还设计了两个对比方案作为内部基线,这两个方案可以理解为”中间地带”的探索。
第一个对比方案叫DPVR-PC(持久上下文):图片信息同样在第18层分流进入侧支通道处理,但在后续的每一个深层处理站,图片信息都被从侧支通道拉回来,强行参与每一层的完整注意力计算。好处是梯度路径最丰富(每层都有14条反传路径),训练信号最强;坏处是计算量和原版完全一样,没有任何效率提升,甚至因为额外的重置操作还略微变慢了(实测增加约6%延迟)。
第二个对比方案叫DPVR-KV(键值替换):图片信息在深层处理站里只贡献”键”和”值”(K/V投影),跳过查询向量(Q)和前馈网络(FFN)的计算。这是一个折中方案,理论上可以节省约17%的图片相关计算量,但并不彻底。
三者相比,DPVR-LF的策略最为激进也最为彻底:图片在13个深层处理站里完全缺席,只在最后一层露一次面。这带来了最大的计算节省——理论上节省深层图片计算量约26.8%(对应实测A800 GPU上节省28.0%的实际延迟),同时付出的代价是最稀疏的梯度信号(只有原来的约5%)。为了弥补梯度稀疏带来的训练难度,研究团队将DPVR-LF的学习率设为基线的2倍(1e-4对比5e-5),这个调整完全弥补了梯度稀疏的劣势。
六、在八个真实测试中的表现
研究团队在LLaVA-1.5-7B和13B两个规模的模型上,跨越八个标准多模态评测基准全面测试了DPVR-LF的效果。这八个测试覆盖了视觉问答、物体幻觉检测、知识推理、多语言理解、科学题解答等多个维度,可以说是对AI图文理解能力的全方位考核。
在7B模型上,DPVR-LF在POPE(物体幻觉检测)上得分0.855,MME-Cognition(认知理解)326分,ScienceQA(科学问答)0.647,这三项均达到或超过全量微调和LoRA等基线方法的最佳水平。在MMBench-EN(英文多模态理解)和SEED-Bench上,DPVR-LF与最佳基线的差距不超过0.5个百分点。相对而言,BLINK(多图关系推理,差2.0个百分点)和MMBench-CN(跨语言图文对齐,差1.9个百分点)是两个表现稍弱的测试——这两类任务恰好对图文深度交互的需求最高,单一融合层的限制在此处有所显现,研究团队也在论文中坦诚承认了这一局限。
在13B模型上,结果同样稳健。研究团队在四个不同的”分流点”(第20、24、28、34层)分别测试了DPVR-PC基线,发现六项基准测试的平均分数在这四个分流点之间的波动不超过0.3个百分点,证明分流点的选择有相当大的容错空间,不是一个需要精确调节的敏感超参数。
全量参数微调整个7B模型需要约70亿个参数参与训练,而DPVR-LF只训练2亿个参数(约占3%),却在绝大多数测试上与前者旗鼓相当甚至略胜一筹。这个对比说明了一件反直觉的事:更多的训练参数不一定带来更好的图文理解性能,关键在于把有限的训练资源放在正确的地方。
七、分流点和融合层数的深入测试
研究团队还专门做了两组深入的消融实验,进一步确认了设计选择的合理性。
关于分流点的选择,7B模型的测试覆盖了第12、18、24层三个候选位置。结果显示,第18层和第24层之间的性能差距仅有0.05个百分点,几乎感知不到;但如果把分流点提前到第12层,六项基准的平均分会下降1.03个百分点——其中POPE单项就下降了3.5个百分点。这说明”过早分流”会导致图片信息在进入侧支通道时还不够成熟,就像摘了一个还没熟的果子,再怎么精心保存也弥补不了内在的不足。第18到第24层是一个安全的”成熟区间”,在这个区间内分流,效果没有显著差异。
关于融合层数的选择,研究团队测试了K=1到K=4(即在最后1到4层进行图文融合)的不同配置,每种配置都进行了3次独立训练取平均。结果表明,六项基准的平均分在K=1到K=4之间的变化幅度只有0.19个百分点——K=2比K=1提升0.18个百分点,K=3提升0.06个百分点,K=4甚至略降0.01个百分点。这个”K饱和”现象在13B模型上同样复现,K=1和K=2之间差距仅0.08个百分点。由此可以确认,单个融合层已经触达了性能天花板,增加更多融合层只是在浪费额外的计算资源。
八、侧支通道的深度也只需要”一层”
对侧支通道本身的深度也做了系统测试。在7B和13B两个规模上,研究团队分别测试了侧支通道深度为1层、2层、3层的情况。结果几乎出乎意料地一致:7B模型的六项均分在深度=1时为0.668,深度增加到2层后降至0.667(降0.11个百分点),3层后继续降至0.665(降0.27个百分点);13B模型的表现同样平稳,深度从1到3层的最大变动幅度仅0.12个百分点。更有意思的是,在BLINK这个专门考查视觉推理长尾能力的测试上,随着侧支通道深度增加,分数单调下降——从0.407(深度1)降至0.394(深度3),暗示更深的侧支通道反而可能让模型在浅层的图片表示上过度拟合,影响最终的融合效果。
这一发现再次确认了一个核心结论:一层侧支通道已经足够,多一层都是累赘。
九、实际运行速度的测试结果
理论上节省了计算量,在真实硬件上能否转化为实际的速度提升?研究团队在三种不同的GPU硬件上(NVIDIA A800 80GB、RTX PRO 6000 Blackwell 97GB、RTX 5880 Ada 48GB)进行了详细的实测。
在A800上,7B模型的DPVR-LF延迟为173毫秒,原版为240毫秒,节省了28.0%——与理论预测的26.8%高度吻合,误差在1.2个百分点以内。在Blackwell上,13B模型的DPVR-LF(分流点=24层)延迟为69毫秒,原版为81毫秒,节省14.8%。在计算密集度更高的5880 Ada上,13B模型的节省幅度扩大到23.1%(153毫秒对比200毫秒)——这说明在计算资源更加紧张的硬件环境下,跳过图片计算的收益反而更加显著,不存在硬件特定的性能陷阱。
值得特别说明的是,DPVR-LF目前的速度提升主要体现在”预处理阶段”(Prefill,即处理完整输入序列的阶段),而在”逐词生成阶段”(Decode)目前尚未实现加速,原因是现有实现还没有适配DPVR-LF的KV缓存格式。研究团队坦诚地将这个问题标注为”工程层面的待改进项”,并指出这不是架构本身的缺陷,未来通过适配的KV缓存管理代码即可解决。对于典型的多模态AI应用来说(处理长图文提示),预处理阶段往往是主要的耗时环节,因此现有的加速效果已经具有实用价值。
研究团队还测试了不同文本长度(64到1024个词)下DPVR-LF节省幅度的稳定性。结果显示,在64到512个词的范围内,节省幅度在14.4%到17.7%之间保持稳定;只有当文本长度达到1024个词时,由于文字计算量占比急剧上升,图片计算的节省比例被稀释,节省幅度收窄到8.0%——但仍然是正向节省。在最常见的128到512个词范围内,节省效果最为显著,而这恰好是图文对话类应用最典型的输入长度范围。
十、模型的”记忆力”完好无损
一个自然的担忧是:把图片信息提前”下车”,会不会导致浅层共享部分的特征被悄悄改变,进而破坏模型原有的语言能力?研究团队对此进行了严格的验证。他们比较了训练完成后的DPVR-PC和DPVR-LF模型在共享浅层(第0到第17层)上的隐状态,与原版冻结的LLaVA的对应隐状态的差异。结果显示,对500个测试样本、每一个处理站,两者之间的余弦相似度中位数均超过0.99989——差异仅为约万分之二,而这个微小的差距完全在bf16浮点计算精度的误差范围之内(理论误差上限约为8×10??)。换句话说,浅层权重与原版LLaVA在数值上几乎逐位相同,语言能力的基础没有受到任何影响。
说到底,这项研究讲的是一个关于”效率”和”有的放矢”的故事。把同一件工具无差别地用在所有材料上,未必是最聪明的做法;真正有效率的工匠,会在合适的时机换用合适的工具。北京大学与清华大学的研究团队通过细致的观察和巧妙的设计,证明了只需要3%的可训练参数,通过在正确的地方”做加法”(一个单层侧支通道)、在正确的地方”做减法”(跳过13层深层图片计算),就能在保持甚至略微提升性能的同时,节省近三成的实际运行时间。
这项发现挑战了长期以来”图片也需要走完所有32层”的默认假设,为未来多模态AI的架构设计提供了一个新的思路方向:视觉信息和语言信息有着不同的”生命节律”,一个好的架构不应强迫它们始终步调一致,而应尊重各自的自然成熟节点,在需要的时候合流,在不需要的时候分道。后续研究可以沿着几个方向延伸探索:将这套分析方法迁移到更新的视觉编码器(如SigLIP)和更大的模型架构(如LLaVA-Next);设计”稀疏非连续融合层”取代单一末层融合;或者针对多图关系推理和跨语言任务设计”任务感知型融合”,动态分配融合层资源。有兴趣深入了解的读者,可以通过arXiv编号2606.09131查阅完整论文和开源代码。
Q&A
Q1:视觉饱和现象是什么意思,为什么图片信息会”提前饱和”?
A:视觉饱和指的是图片信息在神经网络的中间层就已经完成了主要的特征提取,后续更深的层对图片信息的改变趋近于零。LLaVA-1.5-7B的测试显示,图片隐状态从第0层起相邻层间的相似度就稳定在0.92以上,文字对图片的注意力也在前4层内从0.68骤降至0.07并此后长期维持在0.04左右,说明深层处理对图片几乎是无效的重复操作。
Q2:DPVR-LF只有3%的可训练参数,为什么不干脆训练整个模型以追求更高精度?
A:实验结果显示,全量微调7B模型和DPVR-LF在8个基准测试上的表现非常接近,多数测试DPVR-LF持平或略优,说明对于图文理解任务,额外的参数更新收益很小。DPVR-LF的2亿可训练参数集中在模态路由的关键节点,是针对”视觉饱和”现象精准设计的结构,这比将有限梯度信号分散到所有70亿参数上效率更高。
Q3:DPVR-LF在哪些任务上效果变差,原因是什么?
A:BLINK(多图关系推理,差约2个百分点)和MMBench-CN(跨语言图文对齐,差约1.9个百分点)是相对较弱的两项。这两类任务需要模型在回答时进行更深层次的图文交叉比对,单一末层融合提供的一次图文注意力机会不足以完全弥补前13层无图处理的信息缺口,因此性能有所下降。