GELU函数以其近似 GELU,即Gaussian Error Linear Unit,在论文《Gaussian Error Linear Units (GELUs)》提出,被广泛运用于各大LLM中。 2025-02-16 #深度学习
Mixture of Experts(MoE) MOE是当前比较火的技术之一。比如Mistral、当前最火的deepseek都用到了这一技术。 MOE具有预训练速度更快,推理速度更快的性质。但泛化能力不足,对显存需求比较高。 2025-02-15 #深度学习
TPSS5E1 复盘 预测贴纸销量 | Kaggle — Forecasting Sticker Sales | Kaggle是我参加最久的一次TPS,但成绩不够理想,只拿到了27/2722,其中一个原因是一直参考@Cabaxiom的线性回归笔记本,但是其中年份product存在计算错误的问题。 数据介绍 共五列分为日期(天为单位)、country、store、product、num_sold(目标值)。 2010- 2025-02-10 #机器学习 #深度学习
生存分析速览 生存分析(survivalanalysis)是将事件的结果和出现这一结果所经历的时间结合起来分析的一类统计分析方法。不仅考虑事件是否出现,而且也考虑事件出现的时间长短,因此该类方法也被称之为事件时间分析(time-lo-event analysis)。生存分析起源于医学与生物科学。 2024-12-26 #深度学习 #生物信息
奈奎斯特定理与香农定理 奈奎斯特准则和香农定理是计算机网络中和信息论中的基础理论,分别给出了无噪声和有噪声信道的最大数据传输速率。但我们可能很好奇,这些式子是怎么推出来的?为什么会和对数结合信噪比这么一个奇怪的东西扯上关系?我们可以看出有$mlogn$,这是否暗藏玄机? 这些内容其实都可以从香农本人的1949年的《通信的数学理论/A mathematical theory of communication》中找到。 2024-12-16 #计算机网络
SYN和FIN都能携带数据吗? SYN和FIN是TCP协议中三次握手和四次挥手的重要标志位。 第三次握手携带数据是常用,且在RFC 793中明确指出可行的。那SYN和FIN中我们能携带数据吗? 但在有些教材中,指出SYN不能携带,这是错误的。 2024-11-01 #计算机网络
思想验证区域(The Community)人物介绍 第三届青龙最佳综艺作品**《思想验证区域:The Community》,是一档汇集了12名不同理念人们的政治生存类综艺**,参与者皆为来自各行业的素人,男女各占一半,分别从政治、性别、阶级、开放性这四个领域划分了属性。 测试链接:https://thecommunity.co.kr/ 为了方便,记录人物介绍。 2024-08-30
利用物理知识进行预测的机器学习综述 《Machine Learning with Physics Knowledge for Prediction: A Survey》 36页的综述,还是比较详细的。 这项调查研究了将机器学习与物理知识相结合进行预测的广泛方法和模型,重点关注偏微分方程。这些方法引起了人们的极大兴趣,因为它们通过使用小型或大型数据集改进预测模型以及具有有用归纳偏差的表达预测模型,对推进科学研究和工业实践产生潜在影响 2024-08-28 #深度学习 #人工智能 #物理
Classifying Nodes in Graphs without GNNs 图神经网络(GNN)是对图中节点进行分类的主要范例,但它们具有一些源于其消息传递架构的不良属性。最近,蒸馏方法成功地消除了测试时 GNN 的使用,但在训练期间仍然需要它们。作者提出了一种完全无 GNN 的节点分类方法,在训练或测试时不需要它们。该方法由三个关键部分组成:平滑约束、伪标签迭代和邻域标签直方图。 2024-08-24 #深度学习 #人工智能 #图神经网络
RW-NSGCN:通过负采样进行结构性攻击的稳健方法 论文地址 图结构网络通常包含拓扑扰动和权重扰动形式的潜在噪声和攻击,这可能导致 GNN 的分类性能下降。为了提高模型的鲁棒性,该论文提出了一种新方法:随机游走负采样图卷积网络(RW-NSGCN)。具体来说,RW-NSGCN 集成了用于负采样的随机游走(RWR)和 PageRank(PGR)算法,并采用基于行列式点过程(DPP)的 GCN 进行卷积运算。 RWR 利用全局和局部信息来管理噪声和局部变 2024-08-14 #人工智能 #图神经网络 #图学习