小熊的小站

Group Relative Policy Optimization

Group Relative Policy Optimization（GRPO）起自deepseekmath，在deepseek-R1中也大放光彩。看到复旦某组开源了一个简单的仅~200行的关于GRPO的项目simple_GRPO，故决定学习并写写。

2025-02-20

#深度学习

火烧金阁寺

金阁寺是三岛由纪夫所著。我一向对日本文学除侦探小说以外的书籍不太感兴趣，诸如比较著名的村上春树，我也阅读较少。觉得它们阴沉和晦涩。我接触三岛由纪夫的相关书籍，可以追溯到高中搬宿舍时从高中学长“继承”而来的《晓寺》。那边草草阅读了一些，就结束了对三岛由纪夫的接触。看这本三岛由纪夫的《金阁寺》源自fabel的《风吹草动》。由林夕作词，其中写道“火烧金阁寺，是哪一位比我痴”，“分于金阁寺，大有超生

2025-02-17

#阅读

GELU函数以其近似

GELU，即Gaussian Error Linear Unit，在论文《Gaussian Error Linear Units (GELUs)》提出，被广泛运用于各大LLM中。

2025-02-16

#深度学习

Mixture of Experts(MoE)

MOE是当前比较火的技术之一。比如Mistral、当前最火的deepseek都用到了这一技术。 MOE具有预训练速度更快，推理速度更快的性质。但泛化能力不足，对显存需求比较高。

2025-02-15

#深度学习

TPSS5E1 复盘

预测贴纸销量 | Kaggle — Forecasting Sticker Sales | Kaggle是我参加最久的一次TPS（2025/04/01更新： 3月又全力参加了一次，排名18/4381，排名仍达不到拿swag的名次，但成为唯二的在shakeup中留存的top选手也算差强人意。不得不说第2的chiris是真的强），但成绩不够理想，只拿到了27/2

2025-02-10

#机器学习 #深度学习 #kaggle

ARIMA

ARIMA 模型，全称为自回归整合移动平均模型 (Autoregressive Integrated Moving Average model)。

2025-01-15

#机器学习 #时间序列

使用更少的参数建模时间序列

先前的Dlinear已经足够简单，且击败了一众transformer模型。我们还能使用更少的参数吗？Dlinear使用了两个线性网络，分别周期和残差，我们能只用一个吗？这也就是FITS所做的，我们直接在傅里叶域上做神经网络，这样能实现了周期和残差的同时建模。

2025-01-10

#深度学习 #时间序列

生存分析速览

生存分析(survivalanalysis)是将事件的结果和出现这一结果所经历的时间结合起来分析的一类统计分析方法。不仅考虑事件是否出现,而且也考虑事件出现的时间长短,因此该类方法也被称之为事件时间分析(time-lo-event analysis)。生存分析起源于医学与生物科学。

2024-12-26

#深度学习 #生物信息

奈奎斯特定理与香农定理

奈奎斯特准则和香农定理是计算机网络中和信息论中的基础理论，分别给出了无噪声和有噪声信道的最大数据传输速率。但我们可能很好奇，这些式子是怎么推出来的？为什么会和对数结合信噪比这么一个奇怪的东西扯上关系？我们可以看出有$mlogn$，这是否暗藏玄机？这些内容其实都可以从香农本人的1949年的《通信的数学理论/A mathematical theory of communication》中找

2024-12-16

#信息论 #计算机网络

SYN和FIN都能携带数据吗？

SYN和FIN是TCP协议中三次握手和四次挥手的重要标志位。第三次握手携带数据是常用，且在RFC 793中明确指出可行的。那SYN和FIN中我们能携带数据吗？但在有些教材中，指出SYN不能携带，这是错误的。

2024-11-01

#计算机网络