FINDING ADVERSARIALLY ROBUST GRAPH LOTTERY TICKETS 《FINDING ADVERSARIALLY ROBUST GRAPH LOTTERY TICKETS 》NeurIPS 2023&ICLR 2024 2024-05-11 #深度学习 #人工智能 #图神经网络
残差结构的讨论 本文主要围绕《ResiDual: Transformer with Dual Residual Connections》和《Identity Mappings in Deep Residual Networks》展开。 在深度学习中,乃至当今很火的transformer,残差是一个很重要的部分。 残差结构的讨论也是老生常谈的话题了,比如transformer中应该选择Pre Norm与Post N 2024-03-08 #深度学习 #人工智能
RNNS ARE NOT TRANSFORMERS (YET) 论文:RNNS ARE NOT TRANSFORMERS (YET) -THE KEY BOTTLENECK ON IN-CONTEXT RETRIEVAL 本文研究了递归神经网络(rnn)和transformer在解决算法问题方面的表示能力差距。理论分析表明,CoT改善了rnn,但不足以缩小与transformer的差距。 我们证明,采用技术来增强 RNN 的上下文检索能力,包括检索增强生成(R 2024-03-03 #深度学习 #人工智能
BitNet b1.58 微软研究院、国科大同一团队(作者部分变化)的研究者推出了 BitNet 的重要 1-bit 变体,即 BitNet b1.58,其中每个参数都是三元并取值为 {-1, 0, 1}。他们在原来的 1-bit 上添加了一个附加值 0,得到二进制系统中的 1.58 bits。 log_2(3)=1.58 论文:The Era of 1-bit LLMs: All Large Language Mod 2024-02-29 #深度学习 #自然语言处理
Pure Noise to the Rescue of Insufficient Data ICML 2022 / MLRC 2022 OutstandingPaper Q: 这篇论文试图解决什么问题? A: 这篇论文试图解决的问题是深度神经网络在处理不平衡数据集时的性能问题。在现实世界的数据集中,某些类别的样本可能比其他类别稀少,这导致模型在训练过程中容易偏向于多数类,从而在少数类上表现不佳,这种现象称为类别不平衡(class imbalance)。为了解决这个问题,论文提出了一种名 2024-02-27
Fuyu Transformer一作Ashish Vaswani所在的AI公司Adept,发布了Fuyu-8B,是一个多模态模型的小版本,目前唯一一个以像素patch作为图像输入的多模态模型,利用这种方式实现了任意分辨率的无损input。 体验地址 2024-02-26 #深度学习 #人工智能 #多模态
DLinear-Are Transformers Effective for Time Forecasting 这篇论文使用一个简单的线性层模型超过了众多Transformer系列复杂模型。不仅让人疑问:时序预测中Transformer的发展是否真的有效? 源代码。出自AAAI 2023 2024-02-14 #深度学习 #人工智能 #时间序列