大型语言模型可以成为MNIST的few-shot分类器吗

具体代码见:colab

众所周知,像GPT-3等大学语言模型善于few-shot learning。

那能不能在图像上发挥作用呢?

研究者将图像翻译成ASCII来让语言模型理解图像。

prompt模板:

1
2
3
4
5
6
7
8
9
Input: [flattened_ascii_image]  
Output: [class_label]
###
Input: [flattened_ascii_image]
Output: [class_label]
###
...
Input: [flattened_ascii_image]
Output:

MNIST的总体准确率达到了20/30≈66%,勉勉强强,而且样本也较少。

研究者还在CIFAR-10进行了测试,准确率只有50%,比瞎猜还是好一点的。


这个想法是挺有趣的,就是缺乏大量和广泛的样本测试。

openai是用了大量的语言数据进行测试,但是我并不觉得ASCII字谜在openai的训练数据内。

分类效果尽管偏低,但是还是让人眼前一亮的。这种few-shot learning让我想起了最近流行的chatgpt的扫雷prompt。

CV和NLP是否能大一统?

但是,也正如研究者所说:But the world is not just all natural language!


大型语言模型可以成为MNIST的few-shot分类器吗
https://lijianxiong.work/2023/20230116/
作者
LJX
发布于
2023年1月16日
许可协议