学术动态

当前位置: 首页 学术动态 正文
我院张怀文教授课题组、段智议研究员课题组最新研究成果被计算机视觉领域国际顶级会议CVPR2026录用

发布日期:2026-02-26来源:

近日,我院张怀文教授课题组、段智议研究员课题组分别在视觉模型遗忘、视觉语言模型(VLMs)安全防御等方面取得新进展,相关论文“Machine Unlearning via Adaptive Gradient Reweighting and Multi-stage Objective Optimization”、“SafeLogo: Turning Your Logos into Jailbreak Shields via Micro-Regional Adversarial Training”被CVPR 2026 (IEEE/CVF Conference on Computer Vision and Pattern Recognition) 会议录用。CVPR是计算机视觉与模式识别领域公认的国际顶级会议,是中国计算机学会(CCF)推荐的A类会议,是国际CSRankings列表会议。

论文题目:Machine Unlearning via Adaptive Gradient Reweighting and Multi-stage Objective Optimization

作者:卢聚鑫 时浩宇(共同第一作者) 王梦瑶 张怀文(通讯作者)

单位:内蒙古大学

论文聚焦机器遗忘(Machine Unlearning,MU)的核心目标:在不对模型进行重新训练的前提下,消除预训练模型中特定训练样本所带来的负面影响。目前,现有机器遗忘方法已在 “实现模型对特定样本完全遗忘” 与 “保留模型在剩余样本上的性能” 这两大核心目标上开展了诸多探索。然而,这些方法仍然存在两大局限:其一,对所有数据采用均等权重分配策略,忽视了相似样本或近似类别间模糊的决策边界,这不仅造成对浅层记忆样本的无效消耗,还会导致近似保留类别的模型性能出现显著下降;其二,“遗忘目标” 与 “保留目标”存在固有不一致,导致模型训练过程中出现梯度冲突和梯度主导问题,严重阻碍模型收敛,最终降低整体性能。针对上述问题,我们首先提出了一种自适应梯度重加权方法,通过为单个待遗忘样本或易受影响的保留类别自适应分配权重,实现了更高效的遗忘效果,同时有效保护近似类别的模型性能。在此基础上,我们进一步设计了多阶段目标优化策略,该策略包含方向校正、时间稳定性提升和自适应目标融合三个核心优化阶段,既能修正冲突梯度的更新方向,又能避免遗忘或保留目标主导模型更新过程。我们在多个公共数据集上开展了全面分析与大量实验验证,结果表明,该方法在多个数据集与应用场景中均实现了显著的性能提升。

论文题目:SafeLogo: Turning Your Logos into Jailbreak Shields via Micro-Regional Adversarial Training

作者:段智议 张潇月 满天星(通讯作者)

单位:内蒙古大学

论文聚焦视觉语言模型(VLMs)愈发容易受到越狱攻击的影响——这类攻击通过对抗性提示的微妙操控绕过模型的安全对齐机制。越狱攻击的多样性与适应性要求防御机制具备强大的泛化能力。然而,对大规模VLMs进行微调计算成本高昂,且引入过多的视觉或文本防御提示会损害图像真实性与模型可用性。论文提出SafeLogo,该方法通过微区域对抗训练,将徽标尺寸的视觉提示调优为抵御多种越狱攻击的通用防护盾。我们首次将最小-最大对抗优化融入视觉防御提示生成过程:在外循环中,SafeLogo将紧支撑的有界扰动注入极小的图像区域(像素覆盖范围),有效兼顾视觉保真度与语义一致性;同时,为克服现有防御局限于单一攻击方向或固定良性监督的缺陷,内循环从多种越狱攻击中动态生成并筛选出最强攻击策略。在LLaVA-1.5-13B、MiniGPT-4及Qwen3-VL上的大量实验表明,SafeLogo显著降低了MM-SafetyBench、VLGuard和FigStep上的越狱成功率,同时在MM-Vet和MME基准上保持了良性性能。

这两项工作得到了国家自然科学基金,内蒙古自然科学基金,内蒙古“英才兴蒙”本级人才支持计划,内蒙古自治区高校青年科技英才,内蒙古大学“骏马计划”高层次引进人才等项目的支持。

地址:内蒙古呼和浩特市大学西路235号内蒙古大学计算机学院

版权所有 © 内蒙古大学计算机学院

官方微信