小熊的小站

贝叶斯来加噪：Bayesian Flow Networks

Bayesian Flow Networks是由Alex Graves提出的，使用贝叶斯技巧关于生成的模型算法。 2023年，我就看到了这篇论文，但由于篇幅过长、数学推导较多难以理解、无闲暇时间，最终拖到两年后的今天，才决定动手写写自己的理解。此文写法并不算太好，据闻youtube上也有说此文晦涩的评论。文中Alice&Bob发生和接收的意图从“趣味”入手的案例反而加难了初学者对论文的理

2025-05-01

#深度学习 #信息论 #贝叶斯 #生成模型

Diffusion Model

Difussion模型是当今生成领域火热的模型，过往的GAN和VAE已然退出前排。本文主要围绕《Denoising Diffusion Probabilistic Models》 (DDPM) 展开。

2025-04-27

#深度学习 #生成模型

消息传递与特征变换分离的图神经网络

在研究图神经网络的鲁棒性的时候，发现消息传递和特征变化分离开会更有鲁棒性，但未找到是否有前人做过。后来我才发现这正是PPNP的结构。 PPNPPPNP（personalized propagation of neural predictions）出自ICLR2019的《 Predict then Propagate: Graph Neural Networks meet Personalized

2025-04-26

#深度学习 #图神经网络

Target Encoding

Target Encoding又名mean encoding。正如其名，实际上是把符合条件的y的均值作为这个条件的所有样本的新特征。在kaggle的S5E2和这个月正在进行的S5E4等比赛都获得了耀眼的表现。最简单的形式是 1df.groupby("xxx").mean()

2025-04-25

#机器学习 #kaggle

ICLR25 Oral 若干（感兴趣）论文解析

ICLR25这几天在新加坡进行，借着兴致，选择了若干篇感兴趣的文章进行分享。本着能复现的原则，会尽量选择有代码或者实现容易的论文。 Joint Graph Rewiring and Feature Denoising via Spectral Resonance论文地址: https://openreview.net/forum?id=zBbZ2vdLzH 代码: https://github.c

2025-04-24

#深度学习 #人工智能

AUC损失

在最新的TPS中，是以AUC为指标，故有了直接优化AUC的想法。（最终它帮助我获得了rank 18/4381)。

2025-03-21

#机器学习 #kaggle

AUC指标的公榜探测次数

（本文主要源自与@broccoli beef的讨论。）对于AUC指标，公榜探测需要多少次能得到？我们可以提前给个结论，一个粗糙的用来估计的界限是N*H(p)/2log2(N)。

2025-03-19

#机器学习 #kaggle #信息论 #运筹学

两篇大气相关的论文阅读

在kaggle上讨论时，兰州大学的muqingyu博士推荐的两篇论文。

2025-03-15

#kaggle #人工智能 #大气

Muon优化器

近日，Moonshot开源了改进版 Muon 优化算法及用 Muon 训练的SOTA级的MoE小模型。开启了Muon在大模型应用的局面。也许新的优化器时代即将到来！ PS：像谷歌23年提出的Lion（EvoLved Sign Momentum）优化器也号称比AdamW好，但是缺乏在大模型上的成功实验，大多数人还是选择Adam/AdamW。

2025-02-24

#深度学习

MoBA vs NSA

Kimi公开了他们处理长文的秘密了。团队提出了MoBA (Mixture of Block Attention) ，解决了传统注意力机制在处理长文本时的效率问题。 DeepSeek 发布了一篇新论文，提出了一种改进版的注意力机制 NSA（Native Sparse Attention），加上还有创始人兼 CEO 梁文锋亲自参与。

2025-02-22

#深度学习