小熊的小站

多模态攻击与防御速览

视觉-语言预训练模型(VLP安全) 共41篇论文。

2025-07-27

#深度学习 #人工智能 #多模态 #大模型

Attention Sink

Attention Sink是指某些（初始）token具有较大的注意力得分。最早明确提出于StreamingLLM (2309.17453)。

2025-07-26

#深度学习

OATS-通过稀疏与低秩分解实现异常值感知的剪枝

（ICLR 2025) 算法 OATS假定模型权重$W\approx S+L$，其中S为稀疏，$||S_0||\le k$；L为低秩，$Rank(L)\le r$。

2025-07-24

#深度学习 #大模型

OPERA：通过过度信任惩罚和回顾分配减轻多模态大语言模型中的幻觉

2025-07-22

#深度学习 #多模态 #大模型

通过VIB减少大型视觉-语言模型中的幻觉现象

（Corr 2025/ AAAI 2025）《Mitigating Hallucinations in Large Vision-Language Models by Adaptively Constraining Information Flow》

2025-07-20

#深度学习 #多模态 #大模型

SparseVIT:无手工先验的图像操作定位网络

（AAAI 2025）引言图像篡改定位（IML）用以识别图像中特定的篡改区域。由于操作后图像上不可避免地会留下操作痕迹，这些痕迹可以分为语义和非语义（语义无关）特征。语义无关特征指的是突出低级痕迹信息的特征，这些特征独立于图像的语义内容。几乎所有现有的IML模型都遵循了“语义分割骨干网络”和“手工制作的非语义特征提取”的设计。

2025-07-19

#深度学习 #人工智能

多模态速览

基于李沐老师的《多模态论文串讲》，发布于2023年初左右。发布之始已经看过。由于近日学习的需要，重拾并整理。

2025-07-16

#深度学习 #多模态

快手推荐系统模型速览

推荐模型的一个大概结构如图所示。我们将要介绍快手的几个推荐系统模型。QARM和OneRec。我们将按时间顺序介绍。

2025-07-14

#深度学习 #多模态 #推荐系统

线性注意力速览

自注意力机制是Transformer模型的重要部分，但是自注意力的计算和内存的复杂度都与序列长度的二次方成正比，这带来了巨大的计算和内存瓶颈。于是乎，就有了线性注意力的提出。

2025-07-11

#深度学习

方班128期研讨班涉及的一些论文阅读

《方班研讨班课需要把握的要点》——方班示范班第128期研讨厅（复盘课）暨电子科技大学方班实验班成立仪式虽然这次讲座的核心并不是论文，而是学习方法，但其中提到的不少论文也值得阅读。全讲座大概3小时，不得不感慨知识密度之密集和院士精力之充沛。

2025-07-06

#笔记