通过VIB减少大型视觉-语言模型中的幻觉现象 (Corr 2025/ AAAI 2025) 《Mitigating Hallucinations in Large Vision-Language Models by Adaptively Constraining Information Flow》 2025-07-20 #深度学习 #多模态 #大模型
SparseVIT:无手工先验的图像操作定位网络 (AAAI 2025) 引言图像篡改定位(IML)用以识别图像中特定的篡改区域。 由于操作后图像上不可避免地会留下操作痕迹,这些痕迹可以分为语义和非语义(语义无关)特征。语义无关特征指的是突出低级痕迹信息的特征,这些特征独立于图像的语义内容。 几乎所有现有的IML模型都遵循了“语义分割骨干网络”和“手工制作的非语义特征提取”的设计。 2025-07-19 #深度学习 #人工智能
线性注意力速览 自注意力机制是Transformer模型的重要部分,但是自注意力的计算和内存的复杂度都与序列长度的二次方成正比,这带来了巨大的计算和内存瓶颈。于是乎,就有了线性注意力的提出。 2025-07-11 #深度学习
方班128期研讨班涉及的一些论文阅读 《方班研讨班课需要把握的要点》——方班示范班第128期研讨厅(复盘课)暨电子科技大学方班实验班成立仪式 虽然这次讲座的核心并不是论文,而是学习方法,但其中提到的不少论文也值得阅读。 全讲座大概3小时,不得不感慨知识密度之密集和院士精力之充沛。 2025-07-06 #笔记
VisualMixer-通过像素重排来保护视觉DNN任务的训练数据 (NDSS 2024)该论文提出了一种通过打乱像素来保护DNN图像数据视觉隐私的方法。(很奇妙的方法) 2025-07-05 #计算机视觉 #隐私保护
基于核复杂度的无需训练的防御方法 arxiv,《KCES: Training-Free Defense for Robust Graph Neural Networks via Kernel Complexity》 2025-06-17 #深度学习 #图神经网络
传统kmeans并不是(局部)最优 (ICML 2025) 《Modified K-means Algorithm with Local Optimality Guarantees》 K-means是广泛使用的聚类算法,尽管它不一定能保证全局最优,但大家都约定速成地认为K-means会收敛到局部最优解。 但其实不然。 2025-06-15 #机器学习
V-JEPA 2 在23年,本Blog已经介绍过JEPA,也就是lecun推出的世界模型结构。 Lecun一直不相信当前的LLM,而布局于“世界模型”。 当时主要是对图片处理,也就是Image-JEPA。而V-JEPA代表是对视频(Video)处理。 2025-06-13 #深度学习 #多模态