CVPR中稿报道-现代数据工程与实时计算实验室

团队解决多模态大模型高清图像中细粒度视觉感知不足问题

近日，The IEEE/CVF Conference on Computer Vision and Pattern Recognition 2026（CVPR 2026）录用论文结果揭晓，实验室博士生马铭杰的论文“Seeing What Matters: A Training-Free Self-Guided Framework for Multimodal Detail Perception and Reasoning”被录用。

多模态大语言模型（MLLMs）在视觉语言推理任务中取得了显著进展，但固定分辨率模型在感知细粒度视觉细节方面仍面临严峻挑战。论文分析了现有MLLMs在细节感知任务中存在的两大核心问题：（1）注意力分散——模型在推理时将大量注意力错误分配到与问题无关的区域，干扰了对关键细节的判断；（2）视觉模糊——受限于固定输入分辨率，模型无法对关键区域进行有效“放大”以获取清晰的局部视觉信息。

针对上述问题，李国徽教授团队提出了一个免训练的自引导推理框架 SLoFo，模仿人类“扫描、定位、聚焦”（Scan-Locate-Focus）的感知过程。在扫描与定位阶段，SLoFo采用双分支机制精准识别关键图像区域：语义分支利用模型推理前生成的“规划锚点”（planning anchor）进行反向传播，构建梯度加权的语义相关性图，从而实现问题感知的区域选择；结构分支则通过主成分分析（PCA）对视觉token的隐状态进行重建，以重建误差衡量token的结构独特性，为语义分支提供稳健的互补证据，有效抑制注意力汇聚（attention sink）现象带来的干扰。两路信号融合形成语义-结构重要性图，用于裁剪出包含关键细节的子图像。在聚焦阶段，SLoFo将裁剪所得的子图像作为额外输入，同时引入逐阶段视觉token剪枝策略，在推理过程中分阶段逐步裁剪原始图像中相关度最低的token，持续提升信噪比，在增强细节感知的同时有效降低计算开销。在涵盖细节敏感型与通用视觉推理的12个基准数据集上，SLoFo均取得一致性提升，其中在TextVQA和DocVQA上较基线分别提升 4.79% 和 12.01%，在POPE-MSCOCO对抗设置下鲁棒性提升 4.60%，且无需任何额外训练或外部模块。

CVPR是计算机视觉领域中最具权威性和影响力的国际顶级学术会议之一（CCF-A类会议），本届会议共收到有效投稿论文16,092篇，最终录用4090篇，录用率约为25.42%。

CVPR中稿报道 时间：2026年03月16日 10:23 访问量：_showDynClicks("wbnews", 1391578634, 1636)

CVPR中稿报道

时间：2026年03月16日 10:23 访问量：