Fuyu
Transformer一作Ashish Vaswani所在的AI公司Adept,发布了Fuyu-8B,是一个多模态模型的小版本,目前唯一一个以像素patch作为图像输入的多模态模型,利用这种方式实现了任意分辨率的无损input。
介绍
在最新一代基础模型中,多模态模型通常共享一个共同的结构。它们通常包括一个独立的图像编码器,其输出通过交叉注意力机制或适配器集成到大型语言模型(LLM)中。这一模式已经得到广泛应用,如PALM-e、PALI-X、QWEN-VL、LLaVA 1.5和Flamingo等模型都采用了这种方式。这些模型通常以固定的图像分辨率进行操作。在推断过程中,超出此分辨率的图像必须被缩小,而具有不同宽高比的图像则需要进行填充或扭曲。
LLaVA-1.5:
在训练方面,许多其他多模态模型都经历了多步训练过程。图像编码器通常与LLM分开训练,通常使用对比训练目标,这可能很复杂。必须决定何时冻结各个组件的权重。有些模型甚至包括额外的高分辨率图像训练阶段,以确保能够处理高分辨率图像。
当决定如何按比例扩展这些模型的各个组件时,会面临一些挑战。例如,需要决定在编码器和解码器之间分配额外的参数,以及在训练过程中如何分配计算资源。然而,Adept提出的模型避开了这些复杂性。
模型架构
从架构上来看,Fuyu是一个简单的、仅包含解码器的Transformer,其规格与Persimmon-8B相同,没有专用的图像编码器。图像块被直接投影到Transformer的第一层,绕过了嵌入查找。这种方法将传统的Transformer解码器视为图像Transformer,尽管没有池化操作。
其能够支持任意图像分辨率。为了实现这一点,只需将图像标记序列视为文本标记序列即可。模型删除了特定于图像的位置嵌入,并按光栅扫描顺序输入所需数量的图像标记。为了告诉模型何时截断,我们只需使用一个特殊的图像换行符。该模型可以使用其现有的位置嵌入来推理不同的图像大小,并且我们可以在训练时使用任意大小的图像,从而无需单独的高分辨率和低分辨率训练阶段。
实验结果
VQAv2和OKVQA是自然图像问答数据集,COCO是字幕数据集,AI2D是涉及科学图表的多项选择数据集。
Eval Task | Fuyu-8B | Fuyu-Medium | LLaVA 1.5 (13.5B) | QWEN-VL (10B) | PALI-X (55B) | PALM-e-12B | PALM-e-562B |
---|---|---|---|---|---|---|---|
VQAv2 | 74.2 | 77.4 | 80 | 79.5 | 86.1 | 76.2 | 80.0 |
OKVQA | 60.6 | 63.1 | n/a | 58.6 | 66.1 | 55.5 | 66.1 |
COCO Captions | 141 | 138 | n/a | n/a | 149 | 135 | 138 |
AI2D | 64.5 | 73.7 | n/a | 62.3 | 81.2 | n/a | n/a |
问答基准缺陷
问答数据集存在很大缺陷——它们使用复杂的评分机制,要求您以特定格式进行回答,并且通常注释不正确。
考虑以下两个图像:
对于 OKVQA 数据集左侧的图像,当被问到“玩具熊正在演奏什么乐器?”时,模型回答“军鼓”——这显然是正确的!然而,它的得分为 0,因为所有参考答案都只是“鼓”。同样,对于右侧的 VQAv2 图像,当询问“图像中的食物类型是什么?”时,模型正确地回答“鱼,胡萝卜”,但它也得到 0 分,因为参考解决方案列表没有包含这些词。
文档理解
Fuyu 还可以理解文档——包括复杂的信息图表和旧的 PDF:
Question: “Which is the metro in California that has a good job Outlook?”
Fuyu’s answer: “Los Angeles”
Question: “What was the pack spinner capacity?”
Fuyu’s answer: “118 packs.”
图表理解
最后,该模型可以理解有关科学图表的复杂关系查询:
Question: “If in the food web shown in the diagram, Douglas fir tree needles are absent, which organism would starve?”
Fuyu’s answer: “Red tree vole”