TPSS5E1 复盘

预测贴纸销量 | Kaggle — Forecasting Sticker Sales | Kaggle是我参加最久的一次TPS,但成绩不够理想,只拿到了27/2722,其中一个原因是一直参考@Cabaxiom的线性回归笔记本,但是其中年份product存在计算错误的问题。


数据介绍

共五列分为日期(天为单位)、country、store、product、num_sold(目标值)。

2010-2016是训练集

2017是测试集的公榜

2018-2019是测试集的私榜

之前也有个类似的比赛,所以很多solution也是参考了过去的思路。

之前的第一名方案

$$
\begin{equation} \text{sold} = \text{GDP}(\text{country}, \text{year}) \times \text{const}(\text{store}) \times \left[ \text{sine/cosine waves}(\text{product}) + \text{holiday} + \text{weekday} + \text{covid} \right] \end{equation}
$$

假期效应用高斯分布拟合。

数据分析

product具有周期性。

store具有不变性。

GDP和销售额具有较强相关性。

但GDP在Kenya不符合,原因可能是因为$num_{sold}=a*GDP+bias$,而我们忽视了bias。

由上,我顺带分析了所有的514个世界银行特殊指标,其中GDP具有最高的R2,这也说明GDP已经足够了。

每周周日具有最多的销售额,且每周具有周期性。

第一名 by George Koussa

第二名 by Chris Deotte

第三名 by Konstantin Dmitriev

第六名 by Pascal Terpstra

第一个模型是@kdmitrie 发布的公共笔记本的改编。第二个模型使用的是乘性线性回归模型,第三个模型是@cdeotte 发布的 transformer。


TPSS5E1 复盘
https://lijianxiong.work/2025/20250210/
作者
LJX
发布于
2025年2月10日
许可协议