跳到主要内容
og真人东方馆-og东方馆网站VIP入口 -(中国) 有限公司

识别击球手原型

作者:丹尼·丁斯代尔

关键的外卖

-og真人东方馆-og东方馆网站VIP入口 -(中国) 有限公司展示了如何使用一局进程的聚类分析来分组具有相似击球原型的球员, 如 低风险的选手,在最后一局的跑动率高于平均节奏. 

 英格兰中游(3-5位) 与澳大利亚相比,具有更高的运行和控制率预测. 

-在odi的最后10局, og真人东方馆-og东方馆网站VIP入口 -(中国) 有限公司的算法将英格兰队的乔斯·巴特勒单独归类为得分率极高的球员, 但他也认为澳大利亚的格伦·麦克斯韦尔是下一个最危险的球员. 

世界杯冠军澳大利亚队准备迎战东道主英格兰队, og真人东方馆-og东方馆网站VIP入口 -(中国) 有限公司采用了OptaPro的两个新的先进指标来突出双方在击球方法上的差异.

og真人东方馆-og东方馆网站VIP入口 -(中国) 有限公司之前的博客中,og真人东方馆-og东方馆网站VIP入口 -(中国) 有限公司介绍了 基于跑动率和控制率的预测来模拟球员的回合进度. 这些方法提供了一种在精细尺度上可视化比赛数据的方法, 这让og真人东方馆-og东方馆网站VIP入口 -(中国) 有限公司能够获取更多og真人东方馆-og东方馆网站VIP入口 -(中国) 有限公司玩家表现的详细信息. 利用这些方法的下一步是使用og真人东方馆-og东方馆网站VIP入口 -(中国) 有限公司的模型输出来识别相似的玩家原型, 哪一个可以用来理解团队的组成.

分组相似的击球手类型

简单回顾一下,og真人东方馆-og东方馆网站VIP入口 -(中国) 有限公司在之前的博文中定义的指标是:

每次交付预计运行数: og真人东方馆-og东方馆网站VIP入口 -(中国) 有限公司考虑的是每次交货的运力,而不是罢工率. 这是为了区分罢工率, 哪一个通常考虑总局得分率, 以及每次交付的预计运行次数, 哪一种纯粹是对一局中特定投球的得分率的预测.

预测控制射击概率: 这是击球手控制投球的概率. og真人东方馆-og东方馆网站VIP入口 -(中国) 有限公司将控制击球定义为那些击球的结果是击球手期望的结果, 从一个时机恰当的高球到一个判断正确的离球.

使用这些指标, og真人东方馆-og东方馆网站VIP入口 -(中国) 有限公司可以把玩家分配到不同的小组, 基于他们结果的相似性. 例如, og真人东方馆-og东方馆网站VIP入口 -(中国) 有限公司可以根据每个传递进程将玩家分组在一起, 或者类似的控制率进程. og真人东方馆-og东方馆网站VIP入口 -(中国) 有限公司也可以将这些参数结合起来,将具有相似跑动和控制速率进化的玩家分组. 例如, og真人东方馆-og东方馆网站VIP入口 -(中国) 有限公司可以使用这个工具来识别低风险的球员,他们在最后一局的跑动率超过了平均节奏.

为了做到这一点,og真人东方馆-og东方馆网站VIP入口 -(中国) 有限公司使用聚类算法. 其基本思想是,og真人东方馆-og东方馆网站VIP入口 -(中国) 有限公司根据感兴趣的时间范围内曲线之间的距离对曲线进行分组. 通常彼此非常接近的曲线可能被放在同一组中. og真人东方馆-og东方馆网站VIP入口 -(中国) 有限公司该算法的更多细节可以在本博客的末尾找到.

比较英国和澳大利亚的机舱

在今年的世界杯上,英格兰队与其他许多球队的主要区别之一是他们在整个打击阵容中始终保持着侵略性, 特别是在他们的“引擎室”(位置3-5).

探索英格兰和澳大利亚的主要引擎球员如何构建他们的局, og真人东方馆-og东方馆网站VIP入口 -(中国) 有限公司用2019年世界杯其他所有球队的击球手在相同位置上的得分和控制投篮概率来建模.

识别击球手的原型, 然后,og真人东方馆-og东方馆网站VIP入口 -(中国) 有限公司使用og真人东方馆-og东方馆网站VIP入口 -(中国) 有限公司的聚类算法根据玩家的控制和跑动率同时对他们进行分组. og真人东方馆-og东方馆网站VIP入口 -(中国) 有限公司可以观察到每个群体的独特特征, og真人东方馆-og东方馆网站VIP入口 -(中国) 有限公司在这里任意选择了组的数量(六个),这可以增加以获得进一步的描述性聚类.

下面的图代表了六组机舱玩家,并显示了他们的预测运行和控制率, 澳大利亚和英格兰的球员分别以金色和蓝色突出. 虚线代表所有球员的平均表现.

 

 

这个分析中的每一组都有一个独特的特征. 就跑步积累而言,第5组和第6组是两个最谨慎的集群, 但控制率分别相对较低和较高. 请注意,没有澳大利亚或英格兰球员出现在这个组中, 强调两个团队的引擎室始终是积极主动的.

第三组和第四组有些相似, 但与第四组相比,第三组的跑步率始终较高,对应于初始控制率的降低, 尽管这比第四组的控制率提高了50次. 最后,第一组和第二组是大赢家.

有趣的是,注意到英国和澳大利亚机舱的相似之处和不同之处. 打三垒和四垒, 鲁特和摩根分别与史密斯和卡瓦贾归为一类. 它们的运作方式非常相似, 但是英格兰成功的关键可以从他们一贯较高的跑垒率和控球率中观察到. 例如, 乔·鲁特一贯较高的跑垒率和控球率相当于平均击球率60.每次出局得39分,出差率为91.自2015年世界杯以来,他的击球率为80次,而史蒂夫·史密斯的平均击球率为43次.每次出局36分,出好率84.59. 观察他们相似的方法通过og真人东方馆-og东方馆网站VIP入口 -(中国) 有限公司的算法分组在一起, 很明显,他们是每支球队的粘合剂,拥有稳定的跑动积累和高控制率, 但根在这两个方面都更加一致.

同样地,og真人东方馆-og东方馆网站VIP入口 -(中国) 有限公司可以观察到大打击者(第一组和第二组)之间的差异。. 这里og真人东方馆-og东方馆网站VIP入口 -(中国) 有限公司可以看到麦克斯韦, 谁和哈迪克·潘迪亚是一伙的, 以持续的高跑垒率击球. 巴特勒需要更多的时间来启动, 但他的速度比麦克斯韦要快得多. 此外, 与Maxwell相比,butler的控制率在前50次交付中具有更高的预测, 谁的控制概率在一局中稳步下降而失分率没有增加.

最后10名选手分组

og真人东方馆-og东方馆网站VIP入口 -(中国) 有限公司如何使用聚类来区分球员类型和理解球队优势的另一个例子是将最后10名击球手的表现进行分组, og真人东方馆-og东方馆网站VIP入口 -(中国) 有限公司在之前的博客中分析过这个指标, 在此实例分组中,哪些地方仅基于每次交付的运行数.

这种集群将玩家分组, 自2015年世界杯以来,谁的ODI得分至少为400, 在一局最后10局的得分积累方面,谁有类似的方法. 突出显示的是来自英国、澳大利亚和印度的一些关键球员.

 

 

首先,让og真人东方馆-og东方馆网站VIP入口 -(中国) 有限公司看看第三组,这组有英格兰的本·斯托克斯. 尽管在41-46岁的时候,每次交付的跑步率很高, 与其他组相比,这一组在最后四个回合中表现出相当大的下降. 这些球员似乎在1左右达到了跑动率的极限.00-1.在游戏的这段时间里,每次投递25次. 这仍然是一个非常快的得分速度, 但他们似乎并没有持续地打出额外的档位来将他们的每次投球得分提高到1分以上.50. 本·斯托克斯甚至表现出每球得分率的下降,可能是由于试图过度击球. 这可能是英格兰在最后阶段的一个潜在弱点, 但对于数据点很少的球员来说,在比赛最后阶段的预测可能是不确定的, 斯托克斯就是一个典型的例子. 这将在本文的最后进一步讨论.

该算法还将巴特勒单独分组. 如前一篇博客所述, 在这组球员中,他在最后10个回合中的加速是无与伦比的. 因此,聚类算法将他的曲线识别为唯一的,没有等价的. 然而,剩下的两组显示了玩家之间的一些有趣的比较.

一方面,一方面, 第二组和第四组在最后10个回合中都遵循类似的加速模式. 事实上, 短暂的一瞥可能不会揭示它们之间的任何重大差异, 由于两组的每次交付预测运行次数相似,都在50次左右.25-2.00. 然而,这两组之间的关键区别在于得分率的积累.

第二组, 其中包括英格兰的莫恩·阿里, 印度的Virat Kohli和澳大利亚的Glenn Maxwell, 到45分的时候,你的得分是否已经超过了平均跑位预测. 他们倾向于提前加速,但在最后10个回合中保持稳定. 然而,像第四组印度的MS Dhoni这样的球员,往往会推迟这种加速. 因此, 尽管第4组的球员倾向于增加到一个非常可观的跑率,接近50, 他们比第二组的人在一局中加速得更深.

结论

这篇博客中的两个例子展示了基于跑动率和控制率对球员进行分组的各种方法,这些方法可以用来理解球队和球员的优势.

通过将本届世界杯的机舱球员按他们的个人局组成进行分组, 很明显,为什么英格兰队一直以其他任何球队都无法比拟的速度进球. 与澳大利亚同行相比, 英格兰的中线在跑动率和控球率方面都表现良好.

除了, og真人东方馆-og东方馆网站VIP入口 -(中国) 有限公司也可以看到为什么英格兰队在最后10局的比赛中如此强大, 他们的击球顺序包含了极具破坏性的晚顺序球员,他们倾向于在这一阶段比大多数人更快地加速.

这些例子只是og真人东方馆-og东方馆网站VIP入口 -(中国) 有限公司如何运行和控制速率建模的皮毛, 还有聚类算法, 能否识别玩家原型. og真人东方馆-og东方馆网站VIP入口 -(中国) 有限公司在对外直接投资中观察到了特定类别的国际参与者, 但是,og真人东方馆-og东方馆网站VIP入口 -(中国) 有限公司的模型和方法可以适用于其他各种各样的国际和国内比赛.

*进一步型号详情:

为了对相似曲线进行分组,og真人东方馆-og东方馆网站VIP入口 -(中国) 有限公司使用欧几里德距离完全连杆分层聚类. og真人东方馆-og东方馆网站VIP入口 -(中国) 有限公司聚类的特征是每次交付时预测的GAM值, 超过50个配送环节, 每个玩家将拥有50个功能. 这可以通过查看交付的子集来比较曲线来减少. 虽然og真人东方馆-og东方馆网站VIP入口 -(中国) 有限公司在单个度量上聚类时不会对特征进行归一化, 当og真人东方馆-og东方馆网站VIP入口 -(中国) 有限公司根据跑动率和控制率对球员进行分组时, 需要跨度量进行规范化.

在不确定性方面, og真人东方馆-og东方馆网站VIP入口 -(中国) 有限公司还可以估计相应的运行率和控制率的置信区间, 为了让大家了解og真人东方馆-og东方馆网站VIP入口 -(中国) 有限公司对每次交货的平均运价预测的不确定性. 这些只是一个粗略的指导,因为使用og真人东方馆-og东方馆网站VIP入口 -(中国) 有限公司的方法进行鲁棒区间估计所需的主要假设不成立(高斯响应变量),但它确实给了og真人东方馆-og东方馆网站VIP入口 -(中国) 有限公司一个想法,即og真人东方馆-og东方馆网站VIP入口 -(中国) 有限公司在结果中不太确定的地方. og真人东方馆-og东方馆网站VIP入口 -(中国) 有限公司也可以考虑预测区间, 但是由于通过单次射击可以获得很大的可变性, 这些间隔往往很宽,没有信息. 下图是本·斯托克斯的95%置信区间, 为了显示在og真人东方馆-og东方馆网站VIP入口 -(中国) 有限公司的模型输出中有较大不确定性的部分中,每次交付估算的减少运行数是如何的, 因此,这很可能是斯托克斯在这一时期缺乏数据的人为因素.

 

 

重要的是要注意,这些置信区间最有可能在一局的极端结束时增加, 在那里,击球手面对投球的机会更少. 这就是为什么og真人东方馆-og东方馆网站VIP入口 -(中国) 有限公司选择了在这段时间内400分的截止点作为og真人东方馆-og东方馆网站VIP入口 -(中国) 有限公司的情节. 这个截止值可以减少,但需要注意在模型拟合中使用的样条计数和平滑参数值. 在英国和澳大利亚的中阶地块中,产量的不确定性不是一个问题, 因为og真人东方馆-og东方馆网站VIP入口 -(中国) 有限公司看到的是单个球员的一局,而不是一支球队的一局.