第37届CVPR计算机视觉与模式识别大会 (The 37th IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR 2026)) 论文录用结果近日揭晓,IDC实验室共有8篇论文获得录用,其中张桢毓同学2篇,江永卫同学1篇,赵亚泽同学1篇,易帅同学1篇,李森垚同学1篇,李旭泽同学1篇,邓迈杰同学1篇。
1. 实验室2024级博士生张桢毓同学的论文Reclaiming Lost Text Layers for Source-Free Cross-Domain Few-Shot Learning被大会录用。论文在邹逸雄、李玉华等老师的指导下完成。该论文发现:在CLIP等VLM当中移除文本编码器的某些中间层可以有效提升模型在SF-CDFSL任务上的性能,论文称这些层为失落层。该论文深入探讨这一现象,发现这些层信息并未对SF-CDFSL任务造成损害,反而是有益的,但视觉域差异阻碍了这些有用信息的充分利用,使这些层看起来多余。基于这一理解,与当前仅仅移除这些层的研究不同,该论文提出了一种方法,引导模型在层级和编码器层级重新利用这些丢失层的信息,指导模型在域转换下重新学习视觉分支。方法有效解决了文本编码器中信息未充分利用的问题。在各种环境、骨干网络上进行的广泛实验证明了方法的有效性。论文信息如下:
Zhenyu Zhang, Guangyao Chen, Yixiong Zou, Yuhua Li, Ruixuan Li. Reclaiming Lost Text Layers for Source-Free Cross-Domain Few-Shot Learning. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR 2026), Denver, USA, June 3-7, 2026.
2. 实验室2024级博士生张桢毓同学的论文Mind the Discriminability Trap in Source-Free Cross-domain Few-shot Learning被大会录用,论文在邹逸雄、李玉华等老师的指导下完成。该论文发现在基于VLM的SF-CDFSL任务中,视觉模态的可区分性学习实际上抑制了模型的多模态性能。本研究深入探讨这一现象。通过理论和实验证明,典型的基于交叉熵损失的微调天然包含了视觉可区分性学习部分和跨模态学习部分,其中跨模态部分对于纠正SF-CDFSL中严重的模态错位问题至关重要,而视觉学习在这个过程当中本质上起到了一种捷径作用,在未考虑跨模态学习的前提下降低了损失函数,因此阻碍了跨模态对齐并损害性能。基于这一解释,该论文进一步提出了一种解决该问题的方法:首先,扰动视觉学习,引导模型聚焦于跨模态对齐。然后,利用视觉-文本语义关系,在微调过程中从模态内关系级别上对齐视觉和文本模态。论文信息如下:
Zhenyu Zhang, Yixiong Zou, Yuhua Li, Ruixuan Li, Guangyao Chen. Mind the Discriminability Trap in Source-Free Cross-domain Few-shot Learning. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR 2026), Denver, USA, June 3-7, 2026.
3. 实验室2024级硕士生江永卫同学的论文Remedying Target-Domain Astigmatism for Cross-Domain Few-Shot Object Detection 被CVPR 2026大会录用。论文在邹逸雄等老师的指导下完成。该论文首次揭示了在跨域小样本目标检测场景下,视觉语言模型(VLM)在目标域存在注意力发散问题:由于源域和目标域存在显著域差异,模型在源域学习到的注意力模型难以直接迁移到目标域,导致注意力从前景区域扩散至背景区域;而传统微调方式仅能对该现象进行有限缓解。受人类中央凹视觉机制启发,论文提出中心—周边注意力优化方法,利用高置信度类别前景原型增强前景区域,建模背景上下文提升目标边界辨识,并结合背景文本线索进行跨模态语义对齐,强化前景—背景区分。仅需少量目标域标注样本微调,在六个跨域小样本目标检测基准上取得了新的最优性能,并在多个视觉语言模型上均有提升。论文信息如下:
Yongwei Jiang, Yixiong Zou, Yuhua Li, Ruixuan Li. Remedying Target-Domain Astigmatism for Cross-Domain Few-Shot Object Detection. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR 2026), Denver, USA, June 3-7, 2026.
4. 实验室2025级硕士生赵亚泽同学的论文Interpretable Cross-Domain Few-Shot Learning with Rectified Target-Domain Local Alignment被大会录用。论文在邹逸雄等老师指导下完成。本文首次发现CLIP在跨域小样本学习中存在局部特征不对齐问题:域差距和稀缺训练数据导致CLIP难以捕捉目标域的细粒度视觉线索(如医学影像中的病灶区域)。本文解释该现象为CLIP预训练缺乏局部图像块的显式语义监督,而CDFSL进一步加剧了这一问题。基于该发现,本文提出CC-CDFSL方法,通过T-I-T和I-T-I双向循环一致性约束局部视觉-文本特征对齐,并设计语义锚点机制减少视觉噪声,提升模型可解释性和性能。本文在多个基准上验证了方法的有效性,达到最优性能。论文信息如下:
Yaze Zhao, Yixiong Zou, Yuhua Li, Ruixuan Li. Interpretable Cross-Domain Few-Shot Learning with Rectified Target-Domain Local Alignment. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR 2026), Denver, USA, June 3-7, 2026.
5. 实验室2023级博士生易帅同学的论文Addressing Exacerbated Attention Sink for Source-Free Cross-Domain Few-Shot Learning 被CVPR 2026大会录用。论文在邹逸雄、李玉华、李瑞轩老师的指导下完成。该论文首次揭示了跨域小样本学习中一个被忽视的关键问题:目标域上的微调会显著加剧视觉语言模型中的"注意力下沉"现象。于是针对这种现象进行分析并给出解释,为克服源域与目标域之间的巨大差异,模型倾向于采取捷径:过度关注那些初始就与所有目标域类别距离较近的"简单令牌",导致这些令牌吸收了过多的域信息成为"下沉令牌",而牺牲了对初始距离较远但更具判别性的"困难令牌"的学习。基于此,该论文进一步提出了一种动态令牌重加权方法,在微调过程中根据令牌与目标域类别的相关性动态调整权重,显式地抑制模型对简单令牌的依赖并增强对困难令牌的学习,从而有效缓解了注意力下沉问题并提升了模型判别能力。在四个标准数据集上的实验验证了该方法达到了新的最优性能,为未来开发更高效鲁棒的跨域小样本学习系统指明了方向。论文信息如下:
Shuai Yi, Yixiong Zou, Yuhua Li, Ruixuan Li. Addressing Exacerbated Attention Sink for Source-Free Cross-Domain Few-Shot Learning. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR 2026), Denver, USA, June 3-7, 2026.
6. 实验室2025级博士生李森垚同学的论文E^2-SCI:Elastic Edge Cloud Speculative Decoding via Credit Inertia 被CVPR 2026大会录用。论文在李瑞轩、王号召等老师的指导下完成。该论文对端云协同环境下的推测解码效率进行了深入的基准测试与反思。当前研究大多依赖严苛固定的验证标准,忽略了重算带来的传输负担和延迟积压。该工作的核心并非简单提出一种新算法,而是首次揭示了信用惯性现象,即长上下文相邻生成窗口的接受率表现出强烈的时间一致性。基于此,该工作提出了弹性端云协同推测解码框架E^2-SCI,该框架能够根据近期历史表现动态调整验证阈值,对表现优异的窗口放宽标准,从而有效利用时间一致性降低整体延迟。同时,论文深入剖析了渐进式前瞻并发机制在异步隐藏延迟方面的巨大潜力。这为未来开发真正高效实用的低功耗端云协同大小模型推理系统指明了方向。论文信息如下:
Senyao Li, Haozhao Wang, Zhaobai Jiang, Zhanbo Jin, Hao Fan, Ruixuan Li. E^2-SCI: Elastic Edge–Cloud Speculative Decoding via Credit Inertia. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR 2026), Denver, USA, June 3-7, 2026.
7. 实验室2024级博士生李旭泽同学的论文MR-RAG: Multimodal Relevance-Aware Retrieval-Augmented Generation for Medical Visual Question Answering被大会录用。论文在李瑞轩老师和王号召老师的共同指导下完成。针对多模态检索增强生成中检索策略单一以及生成阶段忽略文档相关性等局限,该论文提出了双阶段增强框架MR-RAG。该框架利用多模态协作检索模块(MCR)精准对齐文档,并通过重要性感知信息流增强(IFA)机制动态引导模型注意力,显著提升了多模态问答的准确性。论文信息如下:
Xuze Li, Haozhao Wang, Zhenyu Huang, Zhongxu Wang, Jinghua Zhang, Ruixuan Li. MR-RAG: Multimodal Relevance-Aware Retrieval-Augmented Generation for Medical Visual Question Answering. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR 2026), Denver, USA, June 3-7, 2026.
8. 实验室2024级博士生邓迈杰同学的论文Is Bin Generation Indispensable? A Bin-Generation-Free Dataset Quantization via Semantic Perspective被大会录用。论文在李玉华老师、邹逸雄老师和香港理工大学吴峣博士后的指导下完成。论文主要研究数据集压缩过程中存在的计算开销较高以及压缩策略适应性不足的问题。现有数据量化方法通常依赖bin generation步骤,其计算复杂度较高,在大规模数据场景下效率受限;同时,固定比例的patch丢弃策略难以适应不同样本之间的冗余差异,从而影响压缩后数据的表示质量。针对上述问题,论文从语义视角出发,提出了一种无需bin generation的数据集量化新框架BGFDQ。该方法通过邻域识别的核心集选择机制,有效提升采样效率。同时,引入语义偏移驱动的自适应patch丢弃策略,根据样本语义变化动态调整压缩比例,从而在保证语义完整性的前提下实现更高质量的数据压缩。实验结果验证了该方法的合理性,并优于现有最优方法。论文信息如下:
Maijie Deng, Yuhua Li, Yixiong Zou, Yao Wu, Chenru Ma. Is Bin Generation Indispensable? A Bin-Generation-Free Dataset Quantization via Semantic Perspective. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR 2026), Denver, USA, June 3-7, 2026.
CVPR是计算机视觉领域的著名国际会议,与ICCV、ECCV并称为视觉三大会,也是中国计算机学会(CCF)推荐的A类会议。