TPSS5E1 复盘
预测贴纸销量 | Kaggle — Forecasting Sticker Sales | Kaggle是我参加最久的一次TPS,但成绩不够理想,只拿到了27/2722,其中一个原因是一直参考@Cabaxiom的线性回归笔记本,但是其中年份product存在计算错误的问题。
数据介绍
共五列分为日期(天为单位)、country、store、product、num_sold(目标值)。
2010-2016是训练集
2017是测试集的公榜
2018-2019是测试集的私榜
之前也有个类似的比赛,所以很多solution也是参考了过去的思路。
之前的第一名方案
$$
\begin{equation} \text{sold} = \text{GDP}(\text{country}, \text{year}) \times \text{const}(\text{store}) \times \left[ \text{sine/cosine waves}(\text{product}) + \text{holiday} + \text{weekday} + \text{covid} \right] \end{equation}
$$
假期效应用高斯分布拟合。
数据分析
product具有周期性。
store具有不变性。
GDP和销售额具有较强相关性。
但GDP在Kenya不符合,原因可能是因为$num_{sold}=a*GDP+bias$,而我们忽视了bias。
由上,我顺带分析了所有的514个世界银行特殊指标,其中GDP具有最高的R2,这也说明GDP已经足够了。
每周周日具有最多的销售额,且每周具有周期性。
第一名 by George Koussa
第二名 by Chris Deotte
第三名 by Konstantin Dmitriev
第六名 by Pascal Terpstra
第一个模型是@kdmitrie 发布的公共笔记本的改编。第二个模型使用的是乘性线性回归模型,第三个模型是@cdeotte 发布的 transformer。