Dropout Reduces Underfitting
对于欠拟合模型,我们可以通过早期 dropout 来提高性能——dropout 仅在训练的初始阶段应用,之后关闭。
对于过拟合模型——我们使用后期 dropout,该方法在训练早期不使用 dropout,而是在训练后期才激活。
代码:https://github.com/facebookresearch/dropout
当数据量减少(顶部)或模型容量增加(底部)时,可能会发生过拟合。
dropout 率的影响。随着 dropout 率的增加,训练准确率会下降。然而,存在一个最佳的 dropout 率(在本例中为 p = 0.15 ),可以最大化测试准确率。
dropout 如何减少欠拟合
梯度范数(左)和模型距离(右)。带有 dropout 的模型梯度幅度较小,但在参数空间中移动了更大的距离。
训练曲线。当早期 dropout 结束时,模型在训练损失上经历显著下降,并在测试准确率上相应增加。
Dropout Reduces Underfitting
https://lijianxiong.space/2023/20230324/