Muon优化器 近日,Moonshot开源了改进版 Muon 优化算法及用 Muon 训练的SOTA级的MoE小模型。开启了Muon在大模型应用的局面。也许新的优化器时代即将到来! PS:像谷歌23年提出的Lion(EvoLved Sign Momentum)优化器也号称比AdamW好,但是缺乏在大模型上的成功实验,大多数人还是选择Adam/AdamW。 2025-02-24 #深度学习
MoBA vs NSA Kimi公开了他们处理长文的秘密了。团队提出了MoBA (Mixture of Block Attention) ,解决了传统注意力机制在处理长文本时的效率问题。 DeepSeek 发布了一篇新论文,提出了一种改进版的注意力机制 NSA(Native Sparse Attention),加上还有创始人兼 CEO 梁文锋亲自参与。 2025-02-22 #深度学习
Group Relative Policy Optimization Group Relative Policy Optimization(GRPO)起自deepseekmath,在deepseek-R1中也大放光彩。 看到复旦某组开源了一个简单的仅~200行的关于GRPO的项目simple_GRPO,故决定学习并写写。 2025-02-20 #深度学习
火烧金阁寺 金阁寺是三岛由纪夫所著。 我一向对日本文学除侦探小说以外的书籍不太感兴趣,诸如比较著名的村上春树,我也阅读较少。觉得它们阴沉和晦涩。 我接触三岛由纪夫的相关书籍,可以追溯到高中搬宿舍时从高中学长“继承”而来的《晓寺》。那边草草阅读了一些,就结束了对三岛由纪夫的接触。 看这本三岛由纪夫的《金阁寺》源自fabel的《风吹草动》。由林夕作词,其中写道“火烧金阁寺,是哪一位比我痴”,“分于金阁寺,大有超生 2025-02-17 #阅读
GELU函数以其近似 GELU,即Gaussian Error Linear Unit,在论文《Gaussian Error Linear Units (GELUs)》提出,被广泛运用于各大LLM中。 2025-02-16 #深度学习
Mixture of Experts(MoE) MOE是当前比较火的技术之一。比如Mistral、当前最火的deepseek都用到了这一技术。 MOE具有预训练速度更快,推理速度更快的性质。但泛化能力不足,对显存需求比较高。 2025-02-15 #深度学习
TPSS5E1 复盘 预测贴纸销量 | Kaggle — Forecasting Sticker Sales | Kaggle是我参加最久的一次TPS,但成绩不够理想,只拿到了27/2722,其中一个原因是一直参考@Cabaxiom的线性回归笔记本,但是其中年份product存在计算错误的问题。 数据介绍 共五列分为日期(天为单位)、country、store、product、num_sold(目标值)。 2010- 2025-02-10 #机器学习 #深度学习
生存分析速览 生存分析(survivalanalysis)是将事件的结果和出现这一结果所经历的时间结合起来分析的一类统计分析方法。不仅考虑事件是否出现,而且也考虑事件出现的时间长短,因此该类方法也被称之为事件时间分析(time-lo-event analysis)。生存分析起源于医学与生物科学。 2024-12-26 #深度学习 #生物信息
奈奎斯特定理与香农定理 奈奎斯特准则和香农定理是计算机网络中和信息论中的基础理论,分别给出了无噪声和有噪声信道的最大数据传输速率。但我们可能很好奇,这些式子是怎么推出来的?为什么会和对数结合信噪比这么一个奇怪的东西扯上关系?我们可以看出有$mlogn$,这是否暗藏玄机? 这些内容其实都可以从香农本人的1949年的《通信的数学理论/A mathematical theory of communication》中找到。 2024-12-16 #计算机网络
SYN和FIN都能携带数据吗? SYN和FIN是TCP协议中三次握手和四次挥手的重要标志位。 第三次握手携带数据是常用,且在RFC 793中明确指出可行的。那SYN和FIN中我们能携带数据吗? 但在有些教材中,指出SYN不能携带,这是错误的。 2024-11-01 #计算机网络