CVPR中稿报道-现代数据工程与实时计算实验室
现代数据工程与实时计算实验室

CVPR中稿报道
时间:2026年03月16日 10:23   访问量:

团队解决多模态大模型高清图像中细粒度视觉感知不足问题


近日,The IEEE/CVF Conference on Computer Vision and Pattern Recognition 2026CVPR 2026)录用论文结果揭晓,实验室博士生马铭杰的论文“Seeing What Matters: A Training-Free Self-Guided Framework for Multimodal Detail Perception and Reasoning”被录用。


多模态大语言模型(MLLMs)在视觉语言推理任务中取得了显著进展,但固定分辨率模型在感知细粒度视觉细节方面仍面临严峻挑战。论文分析了现有MLLMs在细节感知任务中存在的两大核心问题:(1)注意力分散——模型在推理时将大量注意力错误分配到与问题无关的区域,干扰了对关键细节的判断;(2)视觉模糊——受限于固定输入分辨率,模型无法对关键区域进行有效放大以获取清晰的局部视觉信息。


针对上述问题,李国徽教授团队提出了一个免训练的自引导推理框架 SLoFo,模仿人类扫描、定位、聚焦Scan-Locate-Focus)的感知过程。在扫描与定位阶段,SLoFo采用双分支机制精准识别关键图像区域:语义分支利用模型推理前生成的“规划锚点planning anchor)进行反向传播,构建梯度加权的语义相关性图,从而实现问题感知的区域选择;结构分支则通过主成分分析(PCA)对视觉token的隐状态进行重建,以重建误差衡量token的结构独特性,为语义分支提供稳健的互补证据,有效抑制注意力汇聚(attention sink)现象带来的干扰。两路信号融合形成语义-结构重要性图,用于裁剪出包含关键细节的子图像。在聚焦阶段,SLoFo将裁剪所得的子图像作为额外输入,同时引入逐阶段视觉token剪枝策略,在推理过程中分阶段逐步裁剪原始图像中相关度最低的token,持续提升信噪比,在增强细节感知的同时有效降低计算开销。在涵盖细节敏感型与通用视觉推理的12个基准数据集上,SLoFo均取得一致性提升,其中在TextVQADocVQA上较基线分别提升 4.79% 12.01%,在POPE-MSCOCO对抗设置下鲁棒性提升 4.60%,且无需任何额外训练或外部模块。


CVPR是计算机视觉领域中最具权威性和影响力的国际顶级学术会议之一(CCF-A类会议),本届会议共收到有效投稿论文16,092篇,最终录用4090篇,录用率约为25.42%


地址:湖北省武汉市洪山区珞瑜路1037号,华中科技大学南一楼西南501室 邮编:430074 电话:027-87556601
计算机科学与技术学院,现代数据工程与实时计算实验室 有问题和意见请与网站管理员联系:adelab@163.com

温馨提示:为保证能正常的浏览此网站,请用IE9.0以上版本查看!    访问人次: