机器学习预测世界杯胜负
来自Predicting FIFA 2022 World Cup with ML。
预测出来的结果是巴西夺冠。
今年阿根廷夺冠!!!!
当然事在人为,最终谁夺的冠军还是让我们来期待一下。
根据历年数据计算的准确率只有不到70的准确率,AUC为0.75。
预测准确率25/48≈52%
数据处理与特征选取
数据集使用1872年至2022年的国际足球成绩和1992-2022年的国际足联世界排名。
该模型预测了主队的胜率和客场的平局/胜率。由于世界杯没有主场和客场之分,为了去除客场球队的优势,分别预测了客场和主场球队的变化结果,并使用两个预测的平均值作为概率。
一些特征:
(1)过去的比赛积分
(2)过去的进球和失球
(3)比赛的重要性(友谊赛或非友谊赛)
(4)球队排名
(5)球队的排名增加
(6)取决于排名的进球和失球
初始选取特征:
(1)球队在世界杯周期的平均进球数。
(2)球队最近5场比赛的平均进球数。
(3)在世界杯周期中,球队的平均失球数。
(4)球队最近5场比赛的平均失球数。
(5)球队在世界杯周期中所面对的国际足联平均排名。
(6)球队在过去5场比赛所面对的国际足联平均排名。
(7)在世界杯周期中中赢得的FIFA积分。
(8)在最近5场比赛中获得的FIFA积分。
(9)在周期中平均比赛点数。
(10)最近5场比赛的平均比赛点数。
(11)在周期中,按排名的平均比赛点数。
(12)最近5场比赛按排名的平均比赛点数。
作者通过小提琴和箱线图来分析以上特征。
作者分析得到有几个特征较好:
(1)排名差异(两个国家FIFA排名相减)
(2)平均进球数差异(还是相减)
(3)近五场平均进球数差异(还是相减)
(4)平均失球数差异
(5)近五场平均失球数差距
(6)主客场FIFA排名差距
(7)近五场主客场FIFA排名差距
(8)主客场每积分进球差距
(9)近五场主客场每积分进球差距
(10)主客场按排名的平均比赛点数差距
(11)近五场主客场按排名的平均比赛点数差距
(12)是否友谊赛
作者尝试了随机森林模型和Gradient Boosting模型,使用recall来判断模型好坏。根据AUC,随机森林效果比Gradient Boosting稍好,但是有过拟合的嫌疑,故作者选取了Gradient Boosting作为最终的模型。
模拟结果
AI并没有给出胜或负的肯定的结果,只有胜负概率,下面的取最高赢球概率的为胜方。
小组赛
A组:
卡塔尔 败 厄瓜多尔 【准】
塞内加尔 败 荷兰 【准】
卡塔尔 败 塞内加尔【准】
荷兰 胜 厄瓜多尔 【准】
厄瓜多尔 胜 塞内加尔 【不准】
荷兰 胜 卡塔尔 【准】
B组
英格兰 胜 伊朗 【准】
美国 平 威尔士 【准】
威尔士 胜 伊朗 【不准】
英格兰 胜 美国 【不准】
威尔士 败 英格兰 【准】
伊朗 败 美国 【准】
C组
阿根廷 胜 沙特阿拉伯 【不准】
墨西哥 平 波兰 【准】
波兰 胜 沙特阿拉伯 【准】
阿根廷 胜 墨西哥 【准】
波兰 败 阿根廷 【准】
沙特阿拉伯 败 墨西哥 【准】
D组
丹麦 胜 突尼斯 【不准】
法国 胜 澳大利亚 【准】
突尼斯 平 澳大利亚 【不准】
法国 平 丹麦 【不准】
澳大利亚 败 丹麦 【不准】
突尼斯 败 法国 【不准】
E组
德国 胜 日本 【不准】
西班牙 胜 哥斯达黎加 【准】
日本 平 哥斯达黎加 【不准】
西班牙 平 德国 【准】
日本 败 西班牙 【不准】
哥斯达黎加 败 德国 【准】
F组
摩洛哥 败 克罗地亚 【不准】
比利时 胜 加拿大 【准】
比利时 胜 摩洛哥 【不准】
克罗地亚 胜 加拿大 【准】
克罗地亚 败 比利时 【不准】
加拿大 平 摩洛哥: 【不准】
G组
瑞士 胜 喀麦隆 【准】
巴西 胜 塞尔维亚 【准】
喀麦隆 败 塞尔维亚 【不准】
巴西 平 瑞士 【不准】
塞尔维亚 败 瑞士 【准】
喀麦隆 败 巴西 【不准】
H组
乌拉圭 胜韩国 【不准】
葡萄牙 胜 加纳: 【准】
韩国 胜 加纳 【不准】
葡萄牙 平 乌拉圭 【不准】
加纳 败 乌拉圭 【准】
韩国 败 葡萄牙 【不准】
评价
机器学习计算出来的胜率最高也知道70%+,一般都在50%~60~左右徘徊,差距是不大的,正所谓足球是圆的,发生什么都有可能,比如2014年格策的绝杀等都是机器无法预测的。现有的机器也不过是统计学习罢了,事在人为。