kaggle竞赛小技巧——为什么四舍五入能提高分数

该观点由tabular-playground-series-jan-2022的冠军AmbrosM提出。

全文:https://www.kaggle.com/c/tabular-playground-series-jan-2022/discussion/301249


这个观点基于三个假设:

1)真实的标签都是整数

2)比赛评分使用MAE(或SMAPE)

3)预测误差是连续单峰函数,最大概率密度在0附近,如下图(墙内下图可能未显示)所示

density

绿色代表四舍五入减少误差,红色代表四舍五入增加误差。

易证绿色的面积会比红色的面积大。

虽然选择四舍五入会提高分数,但是四舍五入也会产生意想不到的效果:会引入不连续性,增加了结果的方差,使模型评估更加困难。


kaggle竞赛小技巧——为什么四舍五入能提高分数
https://lijianxiong.work/2022/20220311/
作者
LJX
发布于
2022年3月11日
许可协议