Bear
  • 首页
  • 目录
  • 标签
  • latex识别
  • 每日arxiv
  • 关于
顽石从未成金,仍愿场上留足印。

AUC指标的公榜探测次数

(本文主要源自与@broccoli beef的讨论。) 对于AUC指标,公榜探测需要多少次能得到? 我们可以提前给个结论,一个粗糙的用来估计的界限是N*H(p)/2log2(N)。
2025-03-19
#机器学习 #kaggle #信息论 #运筹学

两篇大气相关的论文阅读

在kaggle上讨论时,兰州大学的muqingyu博士推荐的两篇论文。
2025-03-15
#kaggle #人工智能 #大气

Muon优化器

近日,Moonshot开源了改进版 Muon 优化算法及用 Muon 训练的SOTA级的MoE小模型。开启了Muon在大模型应用的局面。也许新的优化器时代即将到来! PS:像谷歌23年提出的Lion(EvoLved Sign Momentum)优化器也号称比AdamW好,但是缺乏在大模型上的成功实验,大多数人还是选择Adam/AdamW。
2025-02-24
#深度学习

MoBA vs NSA

Kimi公开了他们处理长文的秘密了。团队提出了MoBA (Mixture of Block Attention) ,解决了传统注意力机制在处理长文本时的效率问题。 DeepSeek 发布了一篇新论文,提出了一种改进版的注意力机制 NSA(Native Sparse Attention),加上还有创始人兼 CEO 梁文锋亲自参与。
2025-02-22
#深度学习

Group Relative Policy Optimization

Group Relative Policy Optimization(GRPO)起自deepseekmath,在deepseek-R1中也大放光彩。 看到复旦某组开源了一个简单的仅~200行的关于GRPO的项目simple_GRPO,故决定学习并写写。
2025-02-20
#深度学习

火烧金阁寺

金阁寺是三岛由纪夫所著。 我一向对日本文学除侦探小说以外的书籍不太感兴趣,诸如比较著名的村上春树,我也阅读较少。觉得它们阴沉和晦涩。 我接触三岛由纪夫的相关书籍,可以追溯到高中搬宿舍时从高中学长“继承”而来的《晓寺》。那边草草阅读了一些,就结束了对三岛由纪夫的接触。 看这本三岛由纪夫的《金阁寺》源自fabel的《风吹草动》。由林夕作词,其中写道“火烧金阁寺,是哪一位比我痴”,“分于金阁寺,大有超生
2025-02-17
#阅读

GELU函数以其近似

GELU,即Gaussian Error Linear Unit,在论文《Gaussian Error Linear Units (GELUs)》提出,被广泛运用于各大LLM中。
2025-02-16
#深度学习

Mixture of Experts(MoE)

MOE是当前比较火的技术之一。比如Mistral、当前最火的deepseek都用到了这一技术。 MOE具有预训练速度更快,推理速度更快的性质。但泛化能力不足,对显存需求比较高。
2025-02-15
#深度学习

TPSS5E1 复盘

预测贴纸销量 | Kaggle — Forecasting Sticker Sales | Kaggle是我参加最久的一次TPS(2025/04/01更新: 3月又全力参加了一次,排名18/4381,排名仍达不到拿swag的名次,但成为唯二的在shakeup中留存的top选手也算差强人意。不得不说第2的chiris是真的强),但成绩不够理想,只拿到了27/2722,其中一个原因是一直参考@Caba
2025-02-10
#机器学习 #深度学习 #kaggle

ARIMA

ARIMA 模型,全称为自回归整合移动平均模型 (Autoregressive Integrated Moving Average model)。
2025-01-15
#机器学习 #时间序列
1…34567…22

搜索

LJX Hexo
博客已经运行 天