小熊的小站

通过VIB减少大型视觉-语言模型中的幻觉现象

（Corr 2025/ AAAI 2025）《Mitigating Hallucinations in Large Vision-Language Models by Adaptively Constraining Information Flow》

2025-07-20

#深度学习 #多模态 #大模型

SparseVIT:无手工先验的图像操作定位网络

（AAAI 2025）引言图像篡改定位（IML）用以识别图像中特定的篡改区域。由于操作后图像上不可避免地会留下操作痕迹，这些痕迹可以分为语义和非语义（语义无关）特征。语义无关特征指的是突出低级痕迹信息的特征，这些特征独立于图像的语义内容。几乎所有现有的IML模型都遵循了“语义分割骨干网络”和“手工制作的非语义特征提取”的设计。

2025-07-19

#深度学习 #人工智能

多模态速览

基于李沐老师的《多模态论文串讲》，发布于2023年初左右。发布之始已经看过。由于近日学习的需要，重拾并整理。

2025-07-16

#深度学习 #多模态

快手推荐系统模型速览

推荐模型的一个大概结构如图所示。我们将要介绍快手的几个推荐系统模型。QARM和OneRec。我们将按时间顺序介绍。

2025-07-14

#深度学习 #多模态 #推荐系统

线性注意力速览

自注意力机制是Transformer模型的重要部分，但是自注意力的计算和内存的复杂度都与序列长度的二次方成正比，这带来了巨大的计算和内存瓶颈。于是乎，就有了线性注意力的提出。

2025-07-11

#深度学习

方班128期研讨班涉及的一些论文阅读

《方班研讨班课需要把握的要点》——方班示范班第128期研讨厅（复盘课）暨电子科技大学方班实验班成立仪式虽然这次讲座的核心并不是论文，而是学习方法，但其中提到的不少论文也值得阅读。全讲座大概3小时，不得不感慨知识密度之密集和院士精力之充沛。

2025-07-06

#笔记

VisualMixer-通过像素重排来保护视觉DNN任务的训练数据

（NDSS 2024）该论文提出了一种通过打乱像素来保护DNN图像数据视觉隐私的方法。（很奇妙的方法）

2025-07-05

#计算机视觉 #隐私保护

基于核复杂度的无需训练的防御方法

arxiv，《KCES: Training-Free Defense for Robust Graph Neural Networks via Kernel Complexity》

2025-06-17

#深度学习 #图神经网络

传统kmeans并不是（局部）最优

(ICML 2025) 《Modified K-means Algorithm with Local Optimality Guarantees》 K-means是广泛使用的聚类算法，尽管它不一定能保证全局最优，但大家都约定速成地认为K-means会收敛到局部最优解。但其实不然。

2025-06-15

#机器学习

V-JEPA 2

在23年，本Blog已经介绍过JEPA，也就是lecun推出的世界模型结构。 Lecun一直不相信当前的LLM，而布局于“世界模型”。当时主要是对图片处理，也就是Image-JEPA。而V-JEPA代表是对视频（Video）处理。

2025-06-13

#深度学习 #多模态