小熊的小站

BitNet b1.58

微软研究院、国科大同一团队（作者部分变化）的研究者推出了 BitNet 的重要 1-bit 变体，即 BitNet b1.58，其中每个参数都是三元并取值为 {-1, 0, 1}。他们在原来的 1-bit 上添加了一个附加值 0，得到二进制系统中的 1.58 bits。 log_2(3)=1.58 论文：The Era of 1-bit LLMs: All Large Langua

2024-02-29

#深度学习 #自然语言处理

Pure Noise to the Rescue of Insufficient Data

ICML 2022 / MLRC 2022 OutstandingPaper Q: 这篇论文试图解决什么问题？ A: 这篇论文试图解决的问题是深度神经网络在处理不平衡数据集时的性能问题。在现实世界的数据集中，某些类别的样本可能比其他类别稀少，这导致模型在训练过程中容易偏向于多数类，从而在少数类上表现不佳，这种现象称为类别不平衡（class imbalance）。为了解决这个问题，论文提

2024-02-27

Fuyu

Transformer一作Ashish Vaswani所在的AI公司Adept，发布了Fuyu-8B，是一个多模态模型的小版本，目前唯一一个以像素patch作为图像输入的多模态模型，利用这种方式实现了任意分辨率的无损input。体验地址

2024-02-26

#深度学习 #人工智能 #多模态

Sora

openai 发布的人工智能文生视频大模型 (但openai并未单纯将其视为视频模型，而是作为”世界模拟器”

2024-02-19

#深度学习 #人工智能

DLinear-Are Transformers Effective for Time Forecasting

这篇论文使用一个简单的线性层模型超过了众多Transformer系列复杂模型。不仅让人疑问：时序预测中Transformer的发展是否真的有效？源代码。出自AAAI 2023

2024-02-14

#深度学习 #人工智能 #时间序列

Depth Anything-Unleashing the Power of Large-Scale Unlabeled Data

Depth Anything是一种鲁棒的单目深度估计解决方案，其充分利用各种未标记的图像和预训练模型中丰富的语义先验，具有优异的零样本深度估计能力。由香港大学、浙江大学等人提出。网页版Demo

2024-02-11

#深度学习 #人工智能 #计算机视觉 #深度估计

周耀辉解析《春秋》

（以下内容被证实是伪作）

2024-02-06

#音乐

Mamba---Linear-Time Sequence Modeling with Selective State Spaces

论文两位作者Albert Gu和Tri Dao，博士都毕业于斯坦福大学，导师为Christopher Ré。 Albert Gu现在是CMU助理教授，多年来一直推动SSM架构发展。他曾在DeepMind 工作，目前是Cartesia AI的联合创始人及首席科学家。 Tri Dao，以FlashAttention、FlashDecoding系列工作闻名，现在是普林斯顿助理教授，和Together A

2024-01-31

#深度学习 #人工智能 #自然语言处理

On Embeddings for Numerical Features in Tabular Deep Learning

该论文使用表格深度学习的一些新embedding。论文地址出自NIPS 2022 Hardy Xu利用该方法获得了kaggle Playground Series - Season 3, Episode 26: Multi-Class Prediction of Cirrhosis Outcomes的第二名。本文提出了两种不同的构建块，适用于构建数字特征的嵌入。第一种是分段线性编码，它为原始

2024-01-16

#机器学习 #深度学习 #人工智能 #表格学习

Self-Supervision is All You Need for Solving Rubik’s Cube

该论文使用NN来解魔方，耳目一新的方法。论文地址 TMLR 2023. 简单来说，该方法利用了组合搜索的一个基本特性：等概率的情况下路径越短，随机发生的可能性就越大。这意味着随机训练争夺的累积概率随着移动次数的减少而增加：$1/\mathbb{M}^N$，其中$\mathbb{M}$表示移动集，N表示路径长度。

2024-01-13

#深度学习 #人工智能