机器学习预测世界杯胜负

来自Predicting FIFA 2022 World Cup with ML

预测出来的结果是巴西夺冠。

今年阿根廷夺冠!!!!

当然事在人为,最终谁夺的冠军还是让我们来期待一下。

根据历年数据计算的准确率只有不到70的准确率,AUC为0.75。

预测准确率25/48≈52%


数据处理与特征选取

数据集使用1872年至2022年的国际足球成绩和1992-2022年的国际足联世界排名。

该模型预测了主队的胜率和客场的平局/胜率。由于世界杯没有主场和客场之分,为了去除客场球队的优势,分别预测了客场和主场球队的变化结果,并使用两个预测的平均值作为概率。

一些特征:

(1)过去的比赛积分
(2)过去的进球和失球
(3)比赛的重要性(友谊赛或非友谊赛)
(4)球队排名
(5)球队的排名增加
(6)取决于排名的进球和失球

初始选取特征:
(1)球队在世界杯周期的平均进球数。
(2)球队最近5场比赛的平均进球数。
(3)在世界杯周期中,球队的平均失球数。
(4)球队最近5场比赛的平均失球数。
(5)球队在世界杯周期中所面对的国际足联平均排名。
(6)球队在过去5场比赛所面对的国际足联平均排名。
(7)在世界杯周期中中赢得的FIFA积分。
(8)在最近5场比赛中获得的FIFA积分。
(9)在周期中平均比赛点数。
(10)最近5场比赛的平均比赛点数。
(11)在周期中,按排名的平均比赛点数。
(12)最近5场比赛按排名的平均比赛点数。

作者通过小提琴和箱线图来分析以上特征。

作者分析得到有几个特征较好:

(1)排名差异(两个国家FIFA排名相减)

(2)平均进球数差异(还是相减)

(3)近五场平均进球数差异(还是相减)

(4)平均失球数差异

(5)近五场平均失球数差距

(6)主客场FIFA排名差距

(7)近五场主客场FIFA排名差距

(8)主客场每积分进球差距

(9)近五场主客场每积分进球差距

(10)主客场按排名的平均比赛点数差距

(11)近五场主客场按排名的平均比赛点数差距

(12)是否友谊赛

作者尝试了随机森林模型和Gradient Boosting模型,使用recall来判断模型好坏。根据AUC,随机森林效果比Gradient Boosting稍好,但是有过拟合的嫌疑,故作者选取了Gradient Boosting作为最终的模型。

模拟结果

AI并没有给出胜或负的肯定的结果,只有胜负概率,下面的取最高赢球概率的为胜方。

小组赛

A组:

卡塔尔 败 厄瓜多尔 【准】

塞内加尔 败 荷兰 【准】

卡塔尔 败 塞内加尔【准】

荷兰 胜 厄瓜多尔 【准】

厄瓜多尔 胜 塞内加尔 【不准】

荷兰 胜 卡塔尔 【准】

B组

英格兰 胜 伊朗 【准】

美国 平 威尔士 【准】

威尔士 胜 伊朗 【不准】

英格兰 胜 美国 【不准】

威尔士 败 英格兰 【准】

伊朗 败 美国 【准】

C组

阿根廷 胜 沙特阿拉伯 【不准】

墨西哥 平 波兰 【准】

波兰 胜 沙特阿拉伯 【准】

阿根廷 胜 墨西哥 【准】

波兰 败 阿根廷 【准】

沙特阿拉伯 败 墨西哥 【准】

D组

丹麦 胜 突尼斯 【不准】

法国 胜 澳大利亚 【准】

突尼斯 平 澳大利亚 【不准】

法国 平 丹麦 【不准】

澳大利亚 败 丹麦 【不准】

突尼斯 败 法国 【不准】

E组

德国 胜 日本 【不准】

西班牙 胜 哥斯达黎加 【准】

日本 平 哥斯达黎加 【不准】

西班牙 平 德国 【准】

日本 败 西班牙 【不准】

哥斯达黎加 败 德国 【准】

F组

摩洛哥 败 克罗地亚 【不准】

比利时 胜 加拿大 【准】

比利时 胜 摩洛哥 【不准】

克罗地亚 胜 加拿大 【准】

克罗地亚 败 比利时 【不准】

加拿大 平 摩洛哥: 【不准】

G组

瑞士 胜 喀麦隆 【准】

巴西 胜 塞尔维亚 【准】

喀麦隆 败 塞尔维亚 【不准】

巴西 平 瑞士 【不准】

塞尔维亚 败 瑞士 【准】

喀麦隆 败 巴西 【不准】

H组

乌拉圭 胜韩国 【不准】

葡萄牙 胜 加纳: 【准】

韩国 胜 加纳 【不准】

葡萄牙 平 乌拉圭 【不准】

加纳 败 乌拉圭 【准】

韩国 败 葡萄牙 【不准】

评价

机器学习计算出来的胜率最高也知道70%+,一般都在50%~60~左右徘徊,差距是不大的,正所谓足球是圆的,发生什么都有可能,比如2014年格策的绝杀等都是机器无法预测的。现有的机器也不过是统计学习罢了,事在人为。


机器学习预测世界杯胜负
https://lijianxiong.work/2022/20221122/
作者
LJX
发布于
2022年11月22日
许可协议