团队解决复杂多模态推理场景下解码阶段计算瓶颈问题-现代数据工程与实时计算实验室

近日，ACM SIGKDD Conference on Knowledge Discovery and Data Mining 2026（KDD 2026）录用论文结果揭晓，实验室博士生马铭杰的论文 “MMSep: Efficient Multimodal Long-Context Reasoning via Multimodal Separator Compression”被录用。

多模态大语言模型（MLLMs）在视觉推理任务中取得了显著进展，但在复杂多模态推理场景中，模型往往需要生成大量中间推理步骤并反复回溯视觉证据，导致解码阶段的累积开销随生成长度线性增长，最终成为端到端推理的主要瓶颈。现有高效推理研究主要聚焦于预填充阶段的视觉token压缩，对短答案场景适配性较好，但在长生成推理场景下已难以提供持续的效率增益。

针对上述问题，团队通过系统分析解码阶段的注意力行为，发现了两个关键现象：（1）文本分隔符吸引大量注意力：解码过程中，模型将大量注意力集中在少数语义内容有限的标点符号、换行符等结构性token（即“文本分隔符”）上，这些token充当上下文信息的聚合锚点；（2）少量视觉token覆盖绝大部分注意力：在视觉侧，模型在整个解码过程中始终将注意力集中在一小部分相对稳定的视觉token上（称为“视觉分隔符”），而非所有视觉上下文。

基于上述观察，团队提出了无需训练的多模态分隔符定位与压缩框架MMSep，同时优化预填充与解码两个阶段的推理效率。在预填充阶段，MMSep通过问题引导的注意力排序与空间-语义相似性约束，采用“保留-回收池”策略定位视觉锚点与视觉分隔符，大幅裁剪语言模型后续层的冗余计算。在解码阶段，MMSep在文本侧引入基于分隔符感知的KV缓存压缩机制，动态保留高贡献度的文本分隔符并丢弃低价值词；在视觉侧，维护少量视觉分隔符，并引入文本分隔符触发的按需视觉召回机制，仅在句段结构边界处动态检索更丰富的视觉上下文，在保证生成质量的前提下显著降低注意力计算与KV缓存开销。在四个主流MLLM骨干模型上，长生成数据集（detail_2k、complex_reasoning_4k）与标准推理基准（ScienceQA、MMMU）的实验表明，MMSep在预填充阶段实现了1.70×–2.18×的加速，在解码阶段实现了1.52×–2.03×的加速，同时在复杂推理任务上性能保留率高达约99%，部分模型甚至出现质量提升。视觉召回机制仅在约8%–9%的解码步骤中被触发，表现出可控的低延迟开销。

KDD是数据挖掘与知识发现领域最具权威性和影响力的国际顶级学术会议之一（CCF-A类会议），本届会议第二轮共收到3252篇有效投稿，中稿率约为18.5%。

团队解决复杂多模态推理场景下解码阶段计算瓶颈问题 时间：2026年05月26日 11:04 访问量：_showDynClicks("wbnews", 1391578634, 1646)

团队解决复杂多模态推理场景下解码阶段计算瓶颈问题

时间：2026年05月26日 11:04 访问量：