团队解决多模态大模型高清图像中细粒度视觉感知不足问题
近日,The IEEE/CVF Conference on Computer Vision and Pattern Recognition 2026(CVPR 2026)录用论文结果揭晓,实验室博士生马铭杰的论文“Seeing What Matters: A Training-Free Self-Guided Framework for Multimodal Detail Perception and Reasoning”被录用。
多模态大语言模型(MLLMs)在视觉语言推理任务中取得了显著进展,但固定分辨率模型在感知细粒度视觉细节方面仍面临严峻挑战。论文分析了现有MLLMs在细节感知任务中存在的两大核心问题:(1)注意力分散——模型在推理时将大量注意力错误分配到与问题无关的区域,干扰了对关键细节的判断;(2)视觉模糊——受限于固定输入分辨率,模型无法对关键区域进行有效“放大”以获取清晰的局部视觉信息。
针对上述问题,李国徽教授团队提出了一个免训练的自引导推理框架 SLoFo,模仿人类“扫描、定位、聚焦”(Scan-Locate-Focus)的感知过程。在扫描与定位阶段,SLoFo采用双分支机制精准识别关键图像区域:语义分支利用模型推理前生成的“规划锚点”(planning anchor)进行反向传播,构建梯度加权的语义相关性图,从而实现问题感知的区域选择;结构分支则通过主成分分析(PCA)对视觉token的隐状态进行重建,以重建误差衡量token的结构独特性,为语义分支提供稳健的互补证据,有效抑制注意力汇聚(attention sink)现象带来的干扰。两路信号融合形成语义-结构重要性图,用于裁剪出包含关键细节的子图像。在聚焦阶段,SLoFo将裁剪所得的子图像作为额外输入,同时引入逐阶段视觉token剪枝策略,在推理过程中分阶段逐步裁剪原始图像中相关度最低的token,持续提升信噪比,在增强细节感知的同时有效降低计算开销。在涵盖细节敏感型与通用视觉推理的12个基准数据集上,SLoFo均取得一致性提升,其中在TextVQA和DocVQA上较基线分别提升 4.79% 和 12.01%,在POPE-MSCOCO对抗设置下鲁棒性提升 4.60%,且无需任何额外训练或外部模块。
CVPR是计算机视觉领域中最具权威性和影响力的国际顶级学术会议之一(CCF-A类会议),本届会议共收到有效投稿论文16,092篇,最终录用4090篇,录用率约为25.42%。