非文本的上下文学习
《VECTOR-ICL: IN-CONTEXT LEARNING WITH CONTINUOUS VECTOR REPRESENTATIONS》(ICLR 2025)
《Can LLMs Reason Over Non-Text Modalities in a Training-Free Manner? A Case Study with In-Context Representation Learning》(NeurIPS 2025)
Vector-ICL
作者认为之前是离散的token,故它去探索是否能在连续向量上执行ICL。
方法:
训练过程:
对于每个文本片段,我们将其切成两部分,切割点从句尾随机采样。前半部分被编码并投影,后半部分保持不变。其余部分与任何预训练过程相同,语言模型在每个输入位置生成下一个词元分布,除了位于投影嵌入之前的词元,并在此基础上施加交叉熵损失。在编码器和语言模型冻结的情况下,梯度反向传播到投影器,更新其参数。
对于非文本数据模态,预训练可以更加灵活。我们将这种预训练定义为涉及通用的、非任务特定的目标,例如从其嵌入中重建一个数字(例如,□x 是 32768),执行基本代数运算(例如,□x + □y = 16384),或从脑部 fMRI 嵌入中预测下一个词元。
实验结果:
在非文本领域,ICL输入表示为数值序列(用于时间序列和脑 fMRI 数据)或文本描述(用于图边列表和结点特征)。
作者还做了文本重构,即能否从投影后的连续向量(即“方盒标记” $\Box$)中解码并恢复出原始的文本信息。
ICRL
主要关注分子数据。
方法
当遇到一个非文本数据(比如一个分子结构)时,首先将其输入到一个预训练好的、特定领域的基础模型(FM)中(例如一个专门的分子模型 Uni-Mol)
ICRL 不像标准 ICL 那样给 LLM 提供 (文本, 标签) 的例子,而是提供 (表征, 标签) 的例子 。
注入方式:
1.文本级别注入。但是由于太长,作者选择使用PCA将高纬转为低维(如20维),转成字符串,再加入到prompt中。
2.嵌入级别注入。更自然。
面临问题:FM 向量的维度(如 $d_{FM}$)和 LLM 嵌入的维度(如 $d_{LLM}$)不同,且它们的数值分布也不同。
解决方法:
(1)0填充。将 $d_{FM}$ 向量用 0 填充到 $d_{LLM}$ 维度。
(2)Random Projection (随机投影)。 使用一个未经训练的、随机初始化的线性层将 $d_{FM}$ 映射到 $d_{LLM}$。
(3)最优传输对齐。直接使用随机投影矩阵可能导致大语言模型的嵌入与映射后的特征记忆表示之间出现分布不匹配。作为旨在对齐两个分布的数学框架,最优传输(OT)提供了一种可行的解决方案来解决这一不匹配问题。
但实际上,作者在论文中的做法只是对齐均值和方差。然而这是相当于只有对角线有协方差的高斯分布的最优传输。还是比较简单的。
OT-Embed:将 FM 向量分布对齐到其原始文本(如 SMILES 字符串)在 LLM 中的嵌入分布 。
OT-PCA:将 FM 向量分布对齐到其“PCA 字符串”在 LLM 中的嵌入分布 。
OT 对齐方法仅占用 1 个 token 的上下文空间,并且性能与 PCA 方法相当 。
作者还做了理论证明,从数学上解释了为什么在设计免训练的“投影层”时,使用简单的线性层(即没有激活函数)是最好的选择,而使用非线性激活函数(如 ReLU)会破坏原始的几何结构,反而有害。
实验
影响ICRL的因子
模型能力。 ICRL 的有效性与潜在预训练大模型的容量密切相关。
PCA维度。在没有文本输入的情况下,随着表示长度的增加,PAC 方法并未带来更好的性能。在大多数情况下,性能甚至有所下降,这表明更长的表示并不一定增强模型对其的理解能力。