西班牙足球吧 关注:588,537贴子:1,630,663
  • 28回复贴,共1

【Viva Espaňa】【翻了个译】寻找足球队中的独特风格

只看楼主收藏回复

1l说明下这篇小品式的论文是我在扫网页的时候听人介绍到的。然后自己看论文的时候正好刷到了,觉得还蛮有意思的。大概是用统计方法提取传球特征,最后得出了巴萨和板鸭队是unique的。作者目测是个巴萨吹和tikitaka吹,建模有点简单但是挺逗的。所以我就搬过来看看情况——毕竟扫论文能扫到这种东西还是挺奇葩的~
该文章目前还没有正式发表,出现在了arXiv的公共数据库中。标题是Searching for a Unique Style in Soccer,作者是Laszlo Gyarmati, Haewoon Kwak, Pablo Rodriguez


IP属地:美国1楼2014-10-03 23:29回复
    建议可以整理一下,阅读起来有点乱


    来自Android客户端4楼2014-10-04 06:19
    回复
      2025-06-03 01:46:17
      广告
      牛,先收藏


      IP属地:重庆来自Android客户端7楼2014-10-07 01:22
      收起回复
        3、数据分析和结果
        我们使用足球队公开的传球网络信息。具体地,数据集包括了2012/13赛季的西班牙、英格兰、法国和德国顶级联赛的信息。比如,西班牙联赛的那部分数据集囊括了20支球队,380场比赛和超过250,000次传球。我们使用上述数据集来量化不同球队的模体特征。我们先给出西甲联赛球队的传球风格的研究结果,然后再与其他欧洲联赛和球队的发现做比较。

        图1 西甲联赛球队中ABAC模体的以Z-分数表征的普遍度。FC-Barcelona比联赛中其他的球队使用ABAC频率高得多。

        图2 FC Barcelona使用ABCD模体比其他球队少



        图3 西甲联赛中ABAB、ABCA和ABCB的Z-分数
        我们就西班牙球队ABAC模体的情况做以比较,如图1。大部分球队的Z-分数相差不大,即,他们使用ABAC传递模体的程度相当。然而,巴萨的战术颇为与众不同:他们比其他球队应用ABAC模体明显更为频繁(差距至少有2.5个标准差)。ABCD模体的趋势与此相似:唯一的区别是大部分球队的Z-分数明显比巴萨大(如图2)。这意味着巴萨应用这一模体的频率要比其他球队地。总的来说,与其他球队相比,巴塞罗那使用结构性模体(即具有更多前后传递的模体如ABAB,ABAC和ABCB)比使用简单模体更多。其他模体的比较结果如图3所示。

        图4 西甲联赛球队的k-means聚类分析。四个聚类中的一个只包含一支球队:巴塞罗那。基于传递模体,巴萨具有一种独特的风格。
        我们随即通过聚类分析的方法分析球队模体特征的异同。首先,对于每支球队,我们构建一个特征向量以表征球队对各个模体的使用。我们将五种模体的Z-分数的均值作为特征值(通过对每支球队赛季中超过38场球赛的Z-分数取平均获得)。然后,我们基于其长度为五种模体的特征向量对其进行聚类。聚类分析使用两种方法:k-means聚类和层次聚类分析。k-means聚类的结果如图4所示(不同聚类用不同颜色表示),在聚类内与总离差平方和的比值为90.3%。比如说,包含马德里竞技和毕尔巴鄂竞技的聚类,与其他聚类相比,其显著特征为ABAB和ABCA模体的利用率很高。大多数球队被分在三个聚类中,而巴塞罗那则与别的球队分开了。它是它所在的聚类的唯一一支球队;因此,它具有与众不同的模体特征。

        图5 西甲球队的Ward氏分层聚类分析法分析。巴塞罗那不在任何球队大组中。
        Ward分层聚类分析法揭示了类似的趋势,如图5。巴塞罗那再次独自拥有一种风格而其他球队具有相似的特征。两种聚类方法的结果是协调的:与其他西甲联赛球队相比,巴塞罗那具有一种独特的,显著性差异的传球风格。

        图6 西班牙、意大利、英格兰、法国和德国联赛球队的风格。巴塞罗那的球队风格即便在欧洲范围内也是独一无二的。
        最后,我们将视野扩宽,调查当我们考虑四个其他欧洲足球联赛的球队时,巴塞罗那的风格是否依然独特。基于对模体进行主成分分析得到的球队风格如图6所示。虽然分析了更多的球队,也发现了他们之间的传球特征有更多的差异,但是巴塞罗那依然能够保持他罕见、独特的风格。令人惊讶的是都灵,一直赛季末几近降级的意甲球队,与研究中大多数的球队的球风相异,而与里尔,米兰和尤文图斯等法甲和意甲主要球队特点相近。都灵与众不同的特征是它对ABCA模体的使用频率较低。
        *****************************************这是第三部分完的分界线*****************************************
        4、未来的工作
        上面给出的结果揭示了足球球队流动模体分析的潜力。扩展传球模体的研究可以解释球队和球员的更多细节。我们将未来的工作锁定在三个区域上:(i)基于比赛结果分情况考虑传球模体,(ii)研究主客场对模体普遍率的影响,(iii)探索不同球员在不同模体中的参与程度。
        *****************************************这是第四部分完的分界线*****************************************
        5、结论
        本文提出了一种通过传球结构评价足球队风格的量化的方法。传球网络中的模体分析使我们能够比较和区分不同球队的不同风格。虽然大多数球队趋于使用同质化的风格,令人惊讶的是,确实也有一种独特的战术风格存在——并颇为成功,据我们近年来所观察到的那样。我们的结果为研究巴塞罗那的独特哲学开启了量化的先河:著名的tiki-taka并不是由无数随机的传递组成的,相反,它就有精密而严格组织的结构。
        *******************************************这是全文结束的分界线*****************************************
        ****************************************************************************************************************


        IP属地:美国本楼含有高级字体8楼2014-10-07 01:27
        回复
          理解能力0分,翻译水准负分,今天太晚了,明天再写最后一部分的注释,感谢吧主@灰尘AMI 加精,和@西班牙旋风 的鼓励,第一次发帖怎么装作常发的样子呀,马上就露馅了。
          排版格式乱糟糟的2楼我删了,虽然后面依然是乱糟糟的,说好了4号搞定结果前两天事情一大堆拖到现在~
          最后阅读愉快,有bug赶快提出欢迎指正~


          IP属地:美国9楼2014-10-07 01:32
          回复
            今天吧里无法愉快地玩耍了,坐等懂球帝来靠谱的分析。想想还是把我这个烂帖子顶起来,正好把最后一部分的注释写完。
            这篇论文之所以我会选择翻译了并放进贴吧,主要原因有两个:一是它所应用的原理性的东西很少,相对比较好理解;二是它所讨论的正是吧里这段时间一直在争论的所谓体系问题。
            然后文章就分析了,体系这个东西确实存在,球员有自己适应的体系,球队有自己贯彻的体系,两个如果不合拍就杯具了,为此它还引用了一篇神文,“The worst ever January transfer signings, including Fernando Torres, Andy Carroll and Eric Djemba-Djemba”,这篇神文就是评论俱乐部历史上比较糟糕的转会的,我托妞不幸又中一枪。
            积极的例子也有,在这篇参考文献里Quantifying the performance of individual players in a team activity,这篇是分析了2008欧洲杯球员对球队整体的贡献,我西球员被发了好多大红花。强烈推荐一张图,这张图表现了08年从1/4决赛开始球员们的贡献和之间的传球配合。(图太大了传不上来,可以戳这里看。)
            http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2886831/figure/pone-0010937-g005/
            所以说一个好的体系可以挖掘出球员更多的个人价值。那么现在问题来了:挖掘机技术哪家强?
            这个问题大家都知道答案,我就不再三重复了。但是下面有另一个问题:
            如何给不同的挖掘机分个类,让它们到合适的地方去挖土。
            这回到了如何从客观上给体系分个类这一点上。因为不同俱乐部球队的体系虽然都不一样,但是部分球队的体系实际上是相似的,这部分人相对兼容性就会好一些,而体系差距特别大的可能就不然。
            从这个角度上来说,对体系进行聚类分析是很有意义的。把各个俱乐部的体系都拉出来伦伦亲,看看谁亲谁疏,哪些是一个大类下的小类,哪些是从根上分道扬镳的。
            注意到“聚类分析”这个概念,这种方法常用于模式识别,用处是发现一大堆数据中的部分对象的共同特征。具体的办法是算特征值,然后用不同的办法计算这些特征值之间的距离。(想知道更细的可以去查wiki,或者programming collective intelligence这本书的第十章,百度上一搜也都有,没兴趣的就别看了)
            那么现在问题又来了:
            1、既然聚类需要特征值,那么特征怎么个统计法?
            2、聚类分析的结果是啥。
            于是乎就是这篇文章的主要内容。
            1、用什么做特征值?
            足球比赛的过程主要就俩,传球和射门,但射门这个东西样本太少,一场比赛里没几个,不足以说明体系这么复杂的问题,所以还是要看传球。
            传球就复杂了,实际上,足球比赛的传球是一个不断移动的网络过程,特征包括传给谁,怎么传,传了之后自己选择怎么跑,传给了队友之后队友再传给谁,然后依次循环的动态问题。
            这个复杂模型显然是没有办法统计的,于是文章忽略了跑这个问题,把每支球队的传球等效成一个网络。(这个问题有待商榷)
            那么联赛这么多支球队就是一大堆的网络,怎么统计这些网络的特征值?
            文章的做法是找网络模体。网络模体这个概念我在正文中注释1解释过了。说白了,就是说一个网络的特点可以通过网络中几个点中出现的频繁联系表明。这几个点的频繁链接就好像是网络的“支架”能撑起网络是个怎样的网络。我们把这种“支架结构”叫做网络模体。
            那么用网络模体表示网络特征是否好使呢,从其他领域的研究看来,确实好使:

            比如说上面这张图,从上到下分别是基因转移,神经传导,食物网,电子电路。前两个网络都是信息交流为主的,所以模体比较相似,食物网是能量交互为主的,模体差异比较大,逻辑电路基本上是在模仿神经网格的作用,所以它跟神经传导网络最像。
            既然模体分析本身是好用的,那么我们就要找足球传递的网络模体。这涉及到一个复杂的统计,作者团队的运算量是巨大的,他抽取了12-13赛季五大联赛的所有比赛数据,把每一支队伍的传球都记录下来,然后统计可能出现的几种模体在球队中的出现频率。
            这几种模体有A→B→A→B,A→B→C→B,A→B→C→A,A→B→C→D,A→B→A→C
            如果大家都没有体系,没有战术,一马xjbt,那么这几种模体的出现频率应该是差不多的,但是统计结果发现不是这样的,从文中的图1-图3 来看,不同球队的不同模体的z-score有明显的差别。
            有差别是好事,有差别证明我们可以用这个差别来分类。
            然后就是下面聚类分析的问题。


            IP属地:美国10楼2014-10-10 12:02
            回复
              2、聚类分析的结果是啥
              图片来自:Cloud_A的百度相册

              再把这张图拿出来,西甲中,巴萨是一个分类,使用的传球套路骨架是ABAB,ABCB和ABAC,实际上它的模体应该说是ABA……
              跟它亲缘关系比较近的是皇马毕巴瓦伦马竞马拉加这一族,他们的特点是ABAB和ABCA。
              共同特点都是少用ABCD
              图片来自:Cloud_A的百度相册

              从另一种聚类方式上来看,巴萨也是与这几队亲缘较近的,而在这几个队伍中,皇马毕巴靠近一些,塞维瓦伦马竞更靠近一些。
              而正是这几支球队构成了西甲的主流节奏,他们产出的人员也是国家队的主力军。
              如果把范围扩展到欧洲五大联赛。
              图片来自:Cloud_A的百度相册

              这张图效果要差不少,大家都扎堆在中间,但实际上也反应了一定问题,比如意甲和法甲的几个在底部呆着的,比如右边上勉强可以辨别的拜仁阿森纳利物浦曼城曼联几个,想想看前者是意法球员的遍布地,后者也是我西的出口大户。
              注意到这组数据是12-13赛季的统计,当时巴萨王朝已有松动迹象,但tikitaka毕竟影响力还是有的,板鸭球员大批量跑到英超的势头还在进行中。大量球队正奔着巴萨的趋势而去。
              最近大批量在吧里说板鸭需要动手术刀换体系的。也许人员需要更换,战术也需要微调,但是完全换体系这个基本上在扯淡,传控体系已经过时了的这个说法在目前的统计上来看也并不靠谱,这个统计中所看到的趋势与之正相反。现在的问题是处在体系运转不起来,但是从统计上来看,板鸭人在的俱乐部里这个体系还是好使的。这就好比体系是个国,球员是菜。既然这些菜都是在类似的锅里培养的,鉴于国家队要看菜下饭,这个饭恐怕还是要在这个锅里煮。


              IP属地:美国通过百度相册上传11楼2014-10-10 12:40
              回复
                最后说说这个研究的亮点和问题:
                亮点我之前说了,大数据量的统计和运算,这个换成我们,就算有这个想法也没这个计算条件对体系进行量化的分析。这个模型就算是简化了的,计算依然十分复杂,鉴于还需要在计算中生成数千个随机模型做参照,整个研究的工作量是很大的。
                而全文的研究结果基本还是比较清晰的,上面给的几张图聚类分析都很明显,可以让我们从数据上直观地看出不同类型的体系的亲缘关系。
                下面说说问题:
                首先这个统计是2013年做的,距今已有一年,但是这篇论文是最近一个月才发的,可见工作效率略差,数据的更新程度略次。咱是围观的不是研究者本人,只好站着说话不腰疼地吐槽吐槽。
                第二是研究者的属性,估计是个巴萨球迷,所以只关心了他心爱的巴萨是否unique,完全不顾一众其他球队的感受,在行文上也没有太多体现,只有皇马和毕巴略提了几句,好在还有个图看,否则这个文章对于我西球迷的意义就更加贬值了。
                第三,也是我前面提到过的,最关键的问题。把球员的跑动忽略到底合不合理。这个问题很关键,因为这关系到建模是否合适的问题。
                从理论上,我还是很怀疑的,很多懂球帝也同样怀疑,比如同为ABCD,ABCD和ABCD实际上是可以不同的:
                “打个比方,某球队门将为A,中场算B,边前位算C,前锋算D。门将一个大脚传给中场B,中场B分球给边上C,C一个45度斜传到禁区里给D攻门。另一球队门将A短传给本方禁区前的B,B带球跑了20米分球给后插上的C,C跟B配合做了二过二的直传协查带球进入大禁区,然后倒回给禁区线上的D,按照这表的统计,这两队的传球是一模一样的,实际情况完全是两种战术好不好。 ”
                但是在结果上,从聚类分析的结果上,我觉得这个近似忽略虽然也许掩盖了部分问题,但是也保留了很多特征。因为它毕竟分开了西甲球队的几大体系,而这个分类结果与我们平时的观感大体上还是协调的,应该说这一近似虽然削弱了,但并未完全抹去研究结果的准确性和实际意义。


                IP属地:美国12楼2014-10-10 12:54
                回复
                  2025-06-03 01:40:17
                  广告
                  The End~


                  IP属地:美国13楼2014-10-10 12:55
                  收起回复
                    妹子辛苦了,我收藏好,有时间拿出来读


                    IP属地:广西来自Android客户端14楼2014-10-10 13:30
                    收起回复