摘要:世界杯小组赛将收官,你还依然信吗冷门频出,黑马击败豪强。以本届世界杯开幕战俄罗斯对阵沙特阿拉伯的比赛为例,两队上次交手是在年的一场友谊赛,距今已经年。然后进入第二步,预测回报率导向。在足球领域,这个回报率已非常不俗。
世界杯小组赛将收官,你还依然信AI吗?
冷门频出,黑马击败豪强。不少AI模型始料未及。
到底还能不能愉快找到科学规律?或者说足球比赛乃至其他竞技体育赛事,数据科学家在AI加持下,究竟能做到多大程度的预测?
瓶颈在核心数据匮乏
如果让谢波回答这个问题,他会告诉你:“单利用神经网络模型对世界杯的胜负、比分进行预测,存在一定难度。”
谢波是北京猜猜科技CEO,他认为世界杯预测难,最根本的原因是核心数据的匮乏:比如国家队之间的历史交战记录非常稀疏,无法提供足够多的信号支持预测的结果。
以本届世界杯开幕战俄罗斯对阵沙特阿拉伯的比赛为例,两队上次交手是在1993年的一场友谊赛,距今已经25年。神经网络模型很难在这样的数据基础上发挥它的威力。
但球赛预测也不是完全毫无办法,在动手实践后,谢波团队发现,如果把包括五大联赛在内的职业联赛当做预测样本,效果将大大不同。
五大联赛指的是欧洲五大职业足球联赛,分别包括英超、西甲、德甲、法甲和意甲联赛。这些联赛有比较完整的商业化体系,也有比较领先的数据采集和数据流转的商业化机制。
所以第一步,获取数据。
相对挑战的是,体育行业的数据相对金融等其他领域,具有来源众多、标准各异、置信度参差不齐等特点,导致很难从某个权威的数据公司获取到一份全面、准确并且标准化的数据。
举个例子,描述一场比赛的赔率数据和基本面数据存在于不同的来源。不同来源的数据需要通过一个非常严密数据流程进行关联和加工,仅仅队名这个最简单的字段在不同来源的叫法都不一样,任何一个小的数据偏差或者丢失都会导致最终神经网络预测结果偏差,影响准确率。这里面的技术活非常的具有挑战性。
此外,还要考虑足球比赛的实时性。所以在已经积累了欧洲主流联赛近10年的数万场比赛历史数据后,猜猜科技的模型还加入了百万量级的赛中实时数据。
然后进入第二步,预测回报率导向。
体育竞猜领域有几个常见的误区。比如,比赛的赔率是博彩公司通过对于比赛本身的判断以及大众投注的选择等因素,综合考虑后给出的比赛投注回报。
例如博彩公司开出主队赢2.25的赔率,其意义就是投注者如果投主队获胜,且比赛结果真是主队获胜,则投注者可以获得其投注额的2.25倍的回报。
而对比赛结果进行一定的判断,给出一定的概率估算,这里预测的是概率。
在此基础上,更为重要的一个概念是价值回报率,该指标则是综合考虑了赔率和结果概率,对于每场比赛的胜负平等结果,都是其对应赔率和预测概率的乘积。
价值回报率可以认为是赔率的可套利空间,或者说是赔率的期望回报值。
于是从预测回报率的角度出发,公式如下:
Returns = Max { Σ Odds | Pro, Val, α } ,其中Odds为预测结果的赔率,Pro为预测的概率,Val为预测的价值回报率,α为选择的策略。
紧接着,就可以看看这个专为预测而打造的模型了,分为两部分:
基于深度学习技术的比赛预测模型,以及基于价值回报率的投注策略模型。
一个个看。
基于深度学习的比赛结果预测模型
深度学习技术作为传统神经网络算法的延伸和扩展,当前在图像识别、语音识别、自然语言处理等领域获得了巨大的成功。
将深度学习技术引入到足球比赛的结果预测中,可以综合利用历史的比赛记录,以及各种实时的数据信息,进行训练和计算。经过数万场比赛的洗礼,庞大数据量的分析,以学习掌握决定胜负的关键因素。
无论是赛前球员的伤病,还是教练的奇招,众多的线索都可以从海量的数据中能获得“蛛丝马迹”,帮助模型得到准确的预测结果。
图:基于深度神经网络的比赛预测
当前猜猜科技的深度学习模型通过对过去两万多场比赛的训练,利用百余维特征,包括球队的基本面(射门数、抢断数、助攻数、控球率等等),几十个渠道(欧赔、亚赔等)的赔率信息,以及历史上的战绩。
经过神经网络的编码和序列解码,以及有效的注意力机制的引入,可以对比赛结果进行准确的预测(包括结果和比分)。
进一步,团队后续还利用多组子模型进行多层次的结果融合,获得较大的性能收益。当前最优的模型可以稳定的达到68%的预测准确性。已经超过了人类专家的较高级水平。
引入价值回报率的最优投资组合的搜索
在已知结果概率和赔率的情况下,选择哪些比赛进行投注,投注的比例又是如何,这是投注策略所关注的问题。
不同的预测概率,会有不同的价值回报值,根据不同的价值回报率,我们会采取不同的下注策略,这就涉及到一个最优投资组合的搜索问题。
搜索的空间是根据赔率,预测的概率,价值回报率以及不同的预测模型等组合而成,如何在百万计的投资组合中进行最优搜索,成为核心问题。
图:基于遗传算法的参数组合搜索
猜猜科技利用剪枝优化的策略,结合遗传算法等多种搜索策略,对最优参数空间进行检索。
遗传算法等并不基于梯度进行计算,算法本身能扩展到巨大的参数空间。重点设计并优化算法的初始条件、选择运算、交叉运算以及变异运算的关键步骤,并且将启发式的裁剪策略运用在遗传算子中,较大限度优化搜索的空间和时间消耗,最终获得较高投资回报比的投资组合参数。
为了测试这套模型, 猜猜科技对 2012 年到 2018 年期间 2 万场足球比赛进行了模拟训练,在测试集300场比赛进行测试,回报率为41%。
在足球领域,这个回报率已非常不俗。
背后团队
最后,介绍下该模型的核心打造团队——猜猜科技,CEO谢波和CTO郭杨,和包括首席科学家在内的神经网络团队,均来自“西二旗”,是前百度核心业务部门的技术和产品骨干。
CTO郭杨透露,打造该预测模型,只是因时制宜的牛刀小试,希望打造一个类似AlphaGo的围棋培训和教学工具,最终目的是能够帮助国内的彩民群体提升他们的赛事分析能力和投注技巧。
但只是一个机器辅助决策类的应用,后续更广泛的场景,是希望将能力应用到更多有意思的领域,比如电子竞技、创造101选秀竞猜、加密货币价格走势中……
声明:文章收集于网络,如有侵权,请联系小编及时处理,谢谢!
欢迎加入本站公开兴趣群商业智能与数据分析群
兴趣范围包括各种让数据产生价值的办法,实际应用案例分享与讨论,分析工具,ETL工具,数据仓库,数据挖掘工具,报表系统等全方位知识
QQ群:81035754
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。
转载请注明本文地址:https://www.ucloud.cn/yun/4794.html
摘要:全球四大云巨头营收规模对比,亚马逊是参天大树,而阿里云则是一个小树苗。尽管阿里云依托国内庞大市场,近年来呈现高速增长态势,但相比亚马逊微软及谷歌差距巨大。全球四大云巨头营收规模对比,亚马逊AWS是参天大树,而阿里云则是一个小树苗。亚马逊AWS在2018年创造了1700亿元人民币营收,而阿里云为213.6亿。尽管阿里云依托国内庞大市场,近年来呈现高速增长态势,但相比亚马逊、微软及谷歌差距巨大。...
摘要:而这种举一反三的能力在机器学习领域同样适用,科学家将其称之为迁移学习。与深度学习相比,我们技术较大优点是具有可证明的性能保证。近几年的人工智能热潮中,深度学习是最主流的技术,以及之后的成功,更是使其几乎成为的代名词。 如今,人类将自己的未来放到了技术手里,无论是让人工智能更像人类思考的算法,还是让机器人大脑运转更快的芯片,都在向奇点靠近。谷歌工程总监、《奇点临近》的作者库兹韦尔认为,一旦智能...
摘要:目前,的全栈边缘计算产品包括虚拟机安全容器和裸金属。契机之下,雷锋网对话了高级产品负责人曾凯源,听他阐述的边缘计算布局战略打法做与不做。曾凯源表示,边缘计算含在战略中,提供的是基础计算能力。云厂商推进边缘计算,已成有趣共识边缘计算的概念自2017年起就以摧枯拉朽之势裹挟着技术人和投资人追捧,还曾一度引发股市热炒和疯狂套现,渐渐形成与云计算分庭抗礼的格局,此后国内一大批边缘计算产业联盟破土而出...
摘要:可预见的未来激情赛事已经过半,阿里云视频技术在本次世界杯中也成功落地,而这并不是结局,这是将视频应用于体育行业以及更多其他行业的开端。 本届世界杯互联网直播的顺利进行,离不开各大云计算厂商的支持。在这其中,阿里云是当之无愧的C位,除了优酷外,阿里云还支撑了CNTV、CCTV5客户端,为全网70%的世界杯直播流量保驾护航。 对于世界杯这种超大观看量级、超强影响力的重要体育赛事,阿里云一直...
摘要:机器学习就是用算法解析数据,不断学习,对世界中发生的事做出判断和预测的一项技术。显然,深度学习是与机器学习中的神经网络是强相关,神经网络也是其主要的算法和手段或者我们可以将深度学习称之为改良版的神经网络算法。 什么是 AI、机器学习与深度学习? 大家好,我是杨锋,作为一个大数据从业人员,相信大家整天都在被 AI、机器学习、深度学习等一些概念轰炸。有时候甚至有点诚惶诚恐,一方面作为一个业...
阅读 2003·2021-11-15 11:38
阅读 2033·2019-08-30 15:55
阅读 2170·2019-08-30 15:52
阅读 3151·2019-08-30 14:01
阅读 2672·2019-08-30 12:47
阅读 1102·2019-08-29 13:17
阅读 1046·2019-08-26 13:55
阅读 2620·2019-08-26 13:46