Dropout Reduces Underfitting

对于欠拟合模型,我们可以通过早期 dropout 来提高性能——dropout 仅在训练的初始阶段应用,之后关闭。

对于过拟合模型——我们使用后期 dropout,该方法在训练早期不使用 dropout,而是在训练后期才激活。

代码:https://github.com/facebookresearch/dropout


当数据量减少(顶部)或模型容量增加(底部)时,可能会发生过拟合。

dropout 率的影响。随着 dropout 率的增加,训练准确率会下降。然而,存在一个最佳的 dropout 率(在本例中为 p = 0.15 ),可以最大化测试准确率。

dropout 如何减少欠拟合

梯度范数(左)和模型距离(右)。带有 dropout 的模型梯度幅度较小,但在参数空间中移动了更大的距离。

训练曲线。当早期 dropout 结束时,模型在训练损失上经历显著下降,并在测试准确率上相应增加。


Dropout Reduces Underfitting
https://lijianxiong.space/2023/20230324/
作者
LJX
发布于
2023年3月24日
许可协议