基于国内体育数据科学的应用研究综述

发布时间:2023-08-30 13:30:09   来源:心得体会    点击:   
字号:

许浩天

(上海体育学院经济管理学院 上海 200438)

1974 年,著名计算机科学家、图灵奖获得者Peter Naur 在其著作《Concise Survey of Computer Methods》的前言中首次明确提出了数据科学的概念。在缺乏数据眼界和强大算力的当时,数据科学研究自然陷入了停滞。直到William S·Cleveland、Mattmann C A 等人先后在学术期刊上发表对数据科学的独到见解,为数据科学的三大领域点亮明灯,从数理统计、计算机科学与技术视角深入并发展数据科学的内涵,自此数据科学的研究逐渐步入正轨。数据科学正式以三大领域进入学者视野。

自21 世纪起,大数据蓬勃发展,国内数据科学进一步在各种场合、各个平台施展拳脚。大数据和数据科学关系紧密,大数据时代的到来极大推动着数据科学的发展与进步,数据科学也进一步为大数据提供了更大的平台。在这样的背景下,我国数据科学的研究蓬勃发展,在些许领域已经走在世界前沿,其中体育领域的发展成果尤为突出,已在体育领域发挥重要的作用。本文将对数据科学在国内体育领域的应用研究进行探究与讨论。

早在2001 年,魏登云在《体育科学研究中数据变异的分类及处理》中提出利用数据处理的方法处理三类数据变异情况。后来,2011年,朱文富发表的《体育比赛结果预测模型的尝试性研究》分析比赛中影响成绩的因素论证了神经网络模型对体育比赛数据拟合的可行性。近来,2020 年,胡亚东等人发表《新型排球超级联赛算法》,主张使用一种新型排球超级联赛算法并推广为一种通用的高性能优化算法。同期,周博军等人在《基于BP 神经网络对中国体育彩票销售金额的预测》中,提出通过构建BP 神经网络模型对我国体育彩票销售金额进行预测,短期预测精度较高。

不难看出,小到球员的抉择、战术的设置布局,大到比赛结果预测,体彩市场的宏观调控,都可以见到数据科学的身影,足以看出数据科学在体育领域应用的潜在优越性已经强大潜在生命力。

同时,以上的种种数据科学在体育领域的应用都有一个共同的特点,便是他们都便随着数据而生,他们背后具有庞大的可量化数据。在如今大数据时代下,世界上鲜有事物无法量化,而能够量化的一切,都可以使用数据科学下的种种框架模型进行精确分析预测。所以拿体育领域来说,其中的可量化元素就非常丰富,正合适体育领域的数据科学在其中大显身手。

科学主要为统计学—体育数据统计推断、机器学习—体育数据机器学习、数据挖掘—体育数据挖掘为理论基础,如图1 所示。其主要研究内容包括体育数据基础理论、体育数据加工处理、体育数据分析挖掘和体育数据产品开发,如图2 所示。

图1 体育数据科学理论基础图

图2 体育数据科学研究内容图

2.1、体育领域的数据挖掘

(1)体育数据挖掘概述。

数据挖掘(Data Mining)就是从大量的数据中,提取隐藏在其中的,事先不知道的、但潜在有用的信息的过程。数据挖掘是一门交叉学科,其核心为:“知识发现”和“数据挖掘”。数据挖掘通常包含两大类任务:描述性挖掘任务和预测性挖掘任务。描述性挖掘任务通常用于刻画数据的某一特征或总体特征;
而预测性挖掘任务则是以已知数据作为基础,把握已知规律,通过推理的方法进行预测。

体育数据挖掘则是利用数据挖掘工具是对海量赛事、体育数据进行描述和预测。

(2)数据挖掘在领域中的应用。

①竞技体育

数据挖掘在传统产业中开始发挥作用,近年来,体育领域也开始了对其的尝试,并取得一些成果。在竞技体育中,数据挖掘技术可以起到训练辅助、战术安排等运动支持功能。

2020 年,赵蕾在《基于数据挖掘技术的体育训练模式研究》中,将数据挖掘应用于运动训练指标分析:针对运动训练项目,分析队员的特点,可以分析各种训练模式的特点,然后从所有模式里选出一种最优解,以便在后续训练中取得最佳效果。从仿真角度验证了该方法的可行性。

不同国家和地区的运动员,对运动量的承受能力是不一样的。同期,刘锦伟的《基于数据挖掘技术的体育训练模式探究》,对羽毛球训练数据利用Apriori 算法辅助训练决策,提高体育训练效率和质量。对于生理体能进行数据挖掘,可以合理制定体能训练计划,减少受伤发生的可能性,在最有限的范围内挖掘运动员的最大潜力。

不同的运动员往往具有不同的运动特征。这些通过数据分析是可以实现的。如果在进攻时,推进速度极快,进攻得分率高,但是在防守端数据则较为平庸,这种球员就属于进攻型球员,因此在安排上主要以突破对方防守端为主。同时利用数据分析挖掘,可以实现分析不同运动员的体能。根据体能合理安排上场时间,使每个队员的能力充分发挥。董文杰等发表的《基于预测模型的最佳进攻球员和进攻点选择》中,主张使用一种基于预测模型的最佳进攻球员和进攻点选择方法,并在仿真中验证了计算机安排战术的有效性。在具有对抗性的运动中,采用合适的策略尤其重要,只有把合适的选手放在了合适的位置,在合适的时机做出正确的决策,队伍才会取得佳绩。

同时在训练安排中,运动员的饮食安排也是十分重要的一环。林瑜在硕士学位论文《优秀运动员的饮食模式及其与身体机能的关系》中,对优秀运动员的三餐数据进行分析,发现他们一般具有相对稳定的饮食模式,但是早餐的摄入明显不足。对运动员的运动和营养物质之间的关系进行监控分析,将得到的数理模型应用于饮食规划搭配,提高了运动员训练饮食的科学性。

②体育产业

在体育产业中,数据挖掘技术通常可以用来判断哪些是它们潜在的最有价值客户。根据这些信息对产业决策进行调整,从而将合适的产品推广给最需要他们的客户群体,获得更佳更优秀的销售结果。例如,对体育广告的业务数据进行数据挖掘,将获得的有益信息用于指导修改业务路线,这样便能一定程度地提高体育广告的效益。

因此,对体育数据高效地挖掘利用有利于体育产业的进一步发展。近来,已有不少学者开展了对体育数据挖掘的研究,对体育产业的发展提供了大量的有益基础。2019 年,陈鸥、付佳发表题为《基于用户行为分析的体育网络广告定向投放研究》主张对用户绘制用户画像,提高个性化广告推送服务。通过对广告业务的数据进行挖掘,获得有意义的信息,一定程度地提高体育广告的效益;
对体育市场信息的大体把握也可以通过挖掘分析获得,而不必盲目行动。

2.2、体育领域的数据统计推断

(1)体育数据统计推断概述。

统计学作为数据科学的重要组成部分,统计学方法往往适用于或被迁移至数据科学的应用研究之中。统计推断的知识包括:对总体的未知参数进行估计;
对关于参数的假设进行检查;
对总体进行预测预报等。统计推断是通过样本推断总体的统计方法。总体是通过总体分布的数量特征即参数(如期望和方差)来反映的。

庞大的体育数据为体育数据统计推断提供了广大的平台,同时体育数据统计推断中,统计学不仅在数据分析上指明了工作方向简化了数学问题,也为后续机器学习数据预处理提供了牢固的数学基础。

(2)统计推断在体育领域中的应用。

数据统计推断已经在传统产业中开始发挥作用,近年来,体育领域也开始了对其的尝试,并取得一些成果。在体育领域中,统计推断提取数据结论往往能起到反映大体趋势的数学表征效果。

我国政府十分重视国民健康采用各种措施增强国民体质,而且每年都会进行大量的体质测试,积累了大量的体质数据。张水龙的题为《多元类别的运动项目对大学生体质健康状况影响研究》的论文中对于某高校学术体质测试数据利用假设检验得到了不同的运动项目在改善和提高学生体质方面有其独特的项目特征的结论,对后续的体质监测活动具有指导意义提供了一定的理论支撑。

在体育竞赛中也有类似的应用。体育竞赛分析通常利用统计学将比赛数据绘制成一个统计表,选手的成绩情况一目了然地呈现。这些数据不仅对运动员的商业价值具有重要影响,也逐渐成为衡量运动员实力的指标。

郝浩然在《中美男子篮球职业联赛数据收集与分析技术对比研究》的学位论文中用清晰的数据运用统计学等分析技术从各个方面对比中美男子篮球职业联赛数据,揭示了之间的巨大差距,提出了具有说服力的建设性建议。

2.3、体育领域的数据机器学习

(1)体育数据机器学习概述。

机器学习是使用计算机作为工具并致力于真实实时的模拟人类学习方式,并将现有内容进行知识结构划分来有效提高学习效率的一种数据分析手段。体育数据机器学习通常与人工智能挂钩,往往能高效高维度发现数据潜在规律,成为数据科学的重要领域之一。

体育的数据长期以来一直是运动科学家研究和分析的主题。随着新的数据来源的出现,如赛事数据(如动作的时间和地点)、跟踪数据(如位置数据)和运动员监测(如生物传感器、imu、GPS),体育领域越来越受到体育数据科学家的青睐。

机器学习正在成为体育分析的一种强大的新范式,机器学习与数据科学的结合为解决体育分析问题提供了崭新的见解和视角,具有远大前景。

(2)机器学习在体育领域中的应用。

机器学习在传统产业中已经开始发挥作用,近年来,体育领域也开始了对其的尝试,并取得一些成果。机器学习作为一项新兴技术,其与体育的融合为体育科研发展带来了全新活力。

在体育科研中,技战术智能分析具有极高的价值。传统的技战术分析使用“三段评估理论”。这样的方法虽然操作简单,但要求长时间观看比赛录像,费时费力,因此体育运动动作自动识别被广泛需求。许浩天在《一种基于YOLO v5 和OpenPose 的乒乓球基础动作识别方法》中提出了一种结合YOLO v5,OpenPose和ST-GCN 建立的乒乓球基础动作分类框架。将该框架运用于乒乓球技战术智能分析,很大程度降低了物力人力成本,符合近代体育科研高效绿色的要求,为传统的技战术分析提供了一种解决思路。

机器学习的介入还为体育数据分析开了一扇新窗。传统比赛结果预测往往基于统计学知识依赖长期累积获得的数据根据数学统计经验推理获得。但是这些方法基于低维空间而实现,难以挖掘高维空间的信息,具有局限性。机器学习为其开拓了全新视角。电子竞技作为一项融合计算机和体育的体育项目,最先引起了学者的广泛关注。罗毅夫在《基于AdaBoost 的某竞技游戏得分预测的应用》中主张使用AdaBoost 的机器学习方法预测英雄联盟玩家胜率数据,结果证实机器AdaBoost 可以有效应用于电竞比赛胜负预测。类似的,机器学习方法还可以应用于各类竞技比赛的结果预测。

除了将机器学习应用于体育数据的分析,机器学习获得的经验还可以反向应用于运动员的训练当中来,已有不少学者对其展开了研究并应用于体育运动训练。2021 年,岳志强在《基于机器学习算法的运动员训练效果评估研究》中使用支持向量机模型拟合运动员训练效果,所得模型误差极低,为教练员合理指导训练计划提供了极高的实际应用价值。常规体育运动经验的生成依赖于历史社会长时间的经验总结,通常由测量计算获得,是物理规律、生物学规律的客观性总结。在人们对于自然界的认识越来越完整之后,鲜有新的知识脱颖而出,往往是已有学问的低价值迭代。机器学习的出现为这类问题提供了崭新见解,在已知规律中寻找高阶规律,是低维度规律的提取与高度概括提升。

本文以体育数据科学内涵以及国内体育数据科学的兴起引入,根据体育数据科学知识体系分门别类地探讨和研究了体育数据科学的应用研究。显然,国内体育数据科学各领域呈现蓬勃发展趋势,发展势头凶猛,周边数据体量指数式增长,人们对于知识发现的渴望和途径正在不断拓宽;
国内体育数据科学研究氛围较为浓厚,学术产出量较多,正在与世界前沿顶尖水平靠近,体育数据科学研究国内前景卓越。

然而国内体育数据科学的发展依然存在许多亟待解决的问题。比如,针对国内公开数据库存在的体量小、数据老、版权意识差等种种问题,各界应该围绕如何采集私人数据、公开数据信息展开深入探讨。同时建立更完善的隐私保护模型,发展以用户为中心的数据交换体系,运用粒度控制技术,完善数据保护机制。再比如,国内该领域的科研一般侧重于该领域的周边问题,鲜有对于领域本质的研究,即革命性算法研究和颠覆性方法的提出,致使国内始终难以触及尖端梯队。为此,社会应着力培养专业后备人才,这样才能为体育数据科学的发展扫清阻碍。

猜你喜欢数据挖掘机器运动员机器狗环球时报(2022-07-13)2022-07-13机器狗环球时报(2022-03-14)2022-03-14探讨人工智能与数据挖掘发展趋势大众投资指南(2021年35期)2021-02-16一位短跑运动员的孤独文苑(2020年12期)2020-04-13我国优秀运动员商业价值的开发冰雪运动(2019年2期)2019-09-02未来机器城电影(2018年8期)2018-09-21基于并行计算的大数据挖掘在电网中的应用电力与能源(2017年6期)2017-05-14一种基于Hadoop的大数据挖掘云服务及应用信息通信技术(2015年6期)2015-12-26最会挣钱的女运动员海外星云(2015年15期)2015-12-01运动员小朋友·快乐手工(2015年4期)2015-05-07