把MoE整合进LLaVA

（ICLR 2025）《LLaVA-MoD: Making LLaVA Tiny via MoE Knowledge Distillation》

（TMM 2025）《MoE-LLaVA: Mixture of Experts for Large Vision-Language Models》

LLaVA-MoD

旨在通过从大规模多模态语言模型（l-MLLM）中蒸馏知识，高效训练小规模多模态语言模型（s-MLLM）。

简单地缩小LLM可能会降低模型的表达能力，故作者选择加入MOE（相当于加宽网络，但又保持激活的参数量不变）。

如何能把大模型的复杂能力迁移到小模型上？

模仿蒸馏。此阶段分为两个步骤，即稠密到稠密（D2D）和稠密到稀疏（D2S）。

偏好蒸馏。l-MLLM 提供关于“好”与“坏”样本的知识，为学生模型建立基础参考。s-MLLM 利用这一知识调整其概率分布，确保好样本的概率高于来自 l-MLLM 的样本，而坏样本则被赋予较低的概率。

方法

稀疏化

复制 N 个前馈网络（FFNs）作为专家模块。

逐步蒸馏

s-MLLM$\pi_S$从 l-MLLM$\pi_T$ 中模仿通用和特定知识。在偏好蒸馏阶段，$\pi_S$获得 $\pi_T$的偏好知识，以进一步优化其输出并减少幻觉。$\pi_S$和$\pi_T$均来自同一 LLM 家族。这确保了词表空间的一致性，

初始化。首先通过一个可学习的适配器将视觉编码器与 LLM 对齐，旨在获得一个良好初始化的稠密版本$\pi_s$。训练目标是最小化生成token 的交叉熵。
$$
\mathcal{L} _ {\text{Init}}(\pi_S)
= -\mathbb{E} _ {(y_k \mid y _ {<k}, x)\sim \pi_S}\left[\log \pi_S(y_k \mid y _ {<k}, x)\right]
$$
模仿蒸馏。

a)稠密到稠密。 使用KL散度。

b)稠密到稀疏。 KL散度+next token训练目标（交叉熵）。

偏好蒸馏。DPO。训练目标是优化 s-MLLM，使其与 l-MLLM 相比，对正面响应的概率分配更高，对负面响应的概率分配更低。