当前位置:网站首页> 体育知识 > 本届世界杯为什么会爆冷(今届世界杯为何成为「爆冷杯」?)

本届世界杯为什么会爆冷(今届世界杯为何成为「爆冷杯」?)

更新时间:2022-08-07 14:29:32

本届世界杯为什么会爆冷(今届世界杯为何成为「爆冷杯」?)

「天台上的德国球迷让一让,阿根廷球迷来排队了。」

今届世界杯似乎和往届的有点不一样。

不知道是得益于赛事的普及还是观众看球热情的高涨,不管是老球迷还是新球迷都开始赌球,逢人便问:今天你买的哪个队,你看看我买的这支靠谱不?

赌球热情不仅占领了朋友圈,各路在线软件也纷纷浮上水面。

数据显示,目前全球竞猜市场达数万亿。体育竞猜拥泵众多,仅在国内就有4亿人群参与网络竞猜。

不懂球?没关系,各类专家现身说法,有AI有大数据预测,有理有据,让这批不懂球的都能赢球。

较早前卫冕冠军德国队对韩国队,这场被全世界球迷都认为除了德国获胜之外不具其他的可能性的比赛,韩国队居然在最后时刻爆冷,2:0战胜了德国队,导致了天台人满为患,世界杯也就成了「爆冷杯」。

大约在此前一天,阿狗有个朋友把用来买房子的钱全压了德国胜,信心十足,拦也拦不住,

「不要怂,就是干,买德国准没错,连AI预测都认为德国夺冠概率很大,打韩国,稳赢的。」

结果那朋友现在输得要下海干活。

这届俄罗斯世界杯频频爆冷,赛前拍着胸脯说「稳得一批」的AI专家也被狠狠打脸,那么阿狗不禁要问,AI预测真的能相信吗,而这些结果到底是怎样预测出来的?

来自德国的格罗尔(Groll)教授率先给出了答案。

教授运用了一种结合机器学习和传统统计学的「随机森林」(Random Forest) 的算法,算法会通过「决策树」(Decision Tree)来计算每个随机分支的结果,通过不断反复的计算,让每次都有不同的随机选择分支,最终将统计出所有随机构建的决策树的平均值。

接下来教授便对2018俄罗斯世界杯所有球队可能会进行的每一场比赛的结果进行建模,预测最有可能发生的比赛进程。

本届世界杯为什么会爆冷(今届世界杯为何成为「爆冷杯」?)

根据「随机森林」算法,西班牙最有可能胜出,概率为 17.8%,略高于德国

本届世界杯为什么会爆冷(今届世界杯为何成为「爆冷杯」?)

接下来格罗尔教授模拟了整个比赛10万次(见上图),并根据结果预测东道主俄罗斯连四分之一决赛都进不了,而德国队则有望成为第三支蝉联世界杯冠军的球队

当然,除了「随机森林」算法,还有大数据挖掘方法。

权威数据挖掘网站KDnuggets上有一位狂热球迷用大数据预测德国队会夺冠。他首先收集了以下四样信息:

国际足联世界排名:所有211支国家足球队的排名,并采用FIFA认可的积分系统。

Elo评级:根据比赛的类型分配点数,会算上双方的净胜球差异(甚至是友谊赛)。

团队价值:关于足球各个方面的信息,包括每个知名球员的估值(及团队)。

赔率:每个国家的赔率(基于OddsChecker网站)。

这个作者将每一个信息都标准化,使它们具有可比性。

本届世界杯为什么会爆冷(今届世界杯为何成为「爆冷杯」?)

作者的预测:德国排名第一,但仅略高于巴西,紧随其后的是西班牙和法国

还有读者自己的预测。

本届世界杯为什么会爆冷(今届世界杯为何成为「爆冷杯」?)

《每日电讯报》让读者对每支球队进行了分析投票,最后还是预测德国夺冠的比例最高

让我们回到最初的问题,我们可以看到,AI能够实现所谓的精准赛事结果预测,其最主要的原因是能够实现大量数据搜集,并通过建模的形式进行大数据分析以得出理论预测结果。

比如,德国教授格罗尔在今届世界杯夺冠预测中采用的「随机森林」算法,这种算法的优点便在于能够绕开普通的决策树模型都会遇到的过渡拟合问题,从而避免了出现严重失误的情况。

但是问题随之而来:有些比赛压根就没有数据。国家队之间的历史交战记录非常少,缺少足够多的数据样本支持预测的结果。

就以本届揭幕战俄罗斯对阵沙特阿拉伯为例,两队上次交手是在1993年的一场友谊赛,显然25年前的友谊赛数据无法对现在的比赛有任何的借鉴意义。

德国跟西班牙相继爆冷被淘汰更是说明了一个问题:像足球这种人与人的竞技类比赛的不确定性因素有很多很多,比如球员状态、休息情况、球队士气等等。

而AI可以将球队所有的战绩、战术安排分析的明明白白,却无法预测球员比赛时的心情。

此外还有一个问题,就是靠数据「投喂」的AI在预测中极有可能存在「数据幻觉」的困境。

以2014年德国7-1巴西的比赛来看,双方的技术统计上并无较大差距,参考技术统计及射门对比的数据,这并不像是「大屠杀」的比赛。

本届世界杯为什么会爆冷(今届世界杯为何成为「爆冷杯」?)

技术统计

本届世界杯为什么会爆冷(今届世界杯为何成为「爆冷杯」?)

射门对比

从数据上看,两队势均力敌,而巴西甚至略占优势,巴西射门18次,射正13次;德国射门14次,射正12次。

但若你身处现场便可清楚,这是因为下半场5:0领先的日耳曼战车已经开始收敛,而巴西则不想放过每一秒组织进攻,只可惜每次都是无功而返。但不断刷新数据的行为就造成了数据对比上的幻觉,这也是AI的「阿喀琉斯之踵」

无论是「随机森林」也好,「大数据挖掘」也罢,无非都是在算一个大小不等的几率,而实际比赛的结果只有一种。

拿掷硬币来说,理论上每一枚硬币正反面的概率都是二分之一,但是哪怕前面九枚抛出的结果都是正面,也不代表第十枚抛出反面的几率更大。

毋庸置疑的是,AI在某些领域拥有明显的优势,比方说曾经被认为不可能战胜人脑的围棋领域,如今也已是AI登顶。

但预测球赛不是人机对弈,在人与人的赛场上也会出现各种各样的意外,有各种不可预知的精彩,或许这也是世界杯乃至更多竞技体育项目让人着迷的根本原因。

本届世界杯为什么会爆冷(今届世界杯为何成为「爆冷杯」?)

-end-

资料来源:

1.Groll世界杯预测模型的论文全文:

arxiv/abs/1806.03208

2.Muriuki逻辑回归预测:

medium/@itsmuriuki/predicting-fifa-world-cup-2018-using-machine-learning-dc07ad8dd576

3.Peste随机森林预测(附代码):
notebooks.azure/sorinpeste/libraries/footballpred/html/worldcup.ipynb

4.统计预测结果:

kdnuggets/2018/06/football-world-cup-predictions.html