大型语言模型可以成为MNIST的few-shot分类器吗
具体代码见:colab
众所周知,像GPT-3等大学语言模型善于few-shot learning。
那能不能在图像上发挥作用呢?
研究者将图像翻译成ASCII来让语言模型理解图像。
prompt模板:
1 |
|
MNIST的总体准确率达到了20/30≈66%,勉勉强强,而且样本也较少。
研究者还在CIFAR-10进行了测试,准确率只有50%,比瞎猜还是好一点的。
这个想法是挺有趣的,就是缺乏大量和广泛的样本测试。
openai是用了大量的语言数据进行测试,但是我并不觉得ASCII字谜在openai的训练数据内。
分类效果尽管偏低,但是还是让人眼前一亮的。这种few-shot learning让我想起了最近流行的chatgpt的扫雷prompt。
CV和NLP是否能大一统?
但是,也正如研究者所说:But the world is not just all natural language!
大型语言模型可以成为MNIST的few-shot分类器吗
https://lijianxiong.work/2023/20230116/