返回栏目
首页人工智能 • 正文

清华足球AI的构筑:首次实现了同时控制10名选手完成比赛,胜率为94.4%

发布时间:  来源:河洛网

本文经AI新媒体量子位(公众号ID:QbitAI )授权转载。 转载请联系出处。

清华足球AI的构筑:首次实现了同时控制10名选手完成比赛,胜率为94.4%

“ 我四号队员在队友的协助下很快突破防守,单刀直入,射门,球,进了! ”

大家好。 现在看到的是谷歌ai足球比赛的现场,场上穿着黄色西装的是来自清华大学的ai选手。

这次清华AI不一般。 他们在严格的训练下,不仅有个人能力突出的明星选手,还有世界上最强最紧密的团队合作。

在很多国际比赛中出名,获得了冠军。

“ Oh,现在7日接到队友的助攻,球接近门进了! ”

言归正传,以上其实是清华大学在足球游戏中创造的强大的多智能体强化学习ai & mdash & mdash; TiKick

在许多国际比赛中获胜,这是TiKick首次通过单一智能体控制和多智能体控制两方面获得SOTA性能,同时操控10名选手完成整个足球游戏。

这个强大的AI队是如何训练的呢?

从单一智能体战略进化而来的多智能体足球AI在此之前,先简单了解一下训练所使用的强化学习环境,也就是这个足球游戏: Googleresearchfootball(GRF )。

谷歌将于2019年发布,提供基于物理的3D足球模拟,支持所有主要比赛规则,并由特工操纵其中一名或多名足球运动员对战另一名内置AI。

在由3000步组成的上半场和下半场比赛中,特工需要不断决定移动、传球、射门、盘球、铲球、冲刺等19个动作才能达到终点。

在这样的足球游戏环境中进行强化学习有两个难度:

一是因为多智能体环境,也就是不包括守门员的10名选手可以操作,算法需要在这样的巨大动作空之间寻找合适的动作组合;

二是众所周知,足球比赛中进球数极少,通过算法很难频繁获得环境奖励,训练难度也大幅上升。

清华大学这次的目标是控制许多选手完成比赛。

他们首先参观了在KA GGLE 2020年举办的GRF世锦赛上,最终夺冠的WeKick队数万场的自我对战数据,并运用离线强化学习方法从中学习。

这场锦标赛只需要控制场上的一名选手进行对战。

如何从单代理数据集中学习多代理策略?

直接学习WeKick的单代理操作,复制到各选手身上显然不可取。 因为这样的话,大家只会随便抢球冲向球门,得不到团队的协助。

没有后台非活跃选手的动作数据,怎么办?

他们在动作集中加入了第20个叫做增益集的动作,并给了所有非活动选手这个标签。 (如果在比赛中选择增益集作为选手的动作,选手会按照内置规则行动。

其次,使用多代理行为克隆( MABC )算法训练模型。

对于离线强化学习来说,最核心的思想是找出数据中高质量的动作,加强对这些动作的学习。

因此,在计算目标函数时需要对每个标签赋予不同的权重,防止选手有只采用某个动作作为行动的倾向。

这里的权重分配有两点考虑:

一是从数据集中选择进球多的比赛,只利用这些高质量的数据进行训练,由于报酬密集,模型可以加速收敛,提高性能。

二是训练关键网络对所有动作评分,利用其结果计算优势函数,对优势函数值大的动作赋予高权重,反之赋予低权重。

这里为了避免坡度的爆炸和消失,对优势函数进行了适当的修剪。

最终的分布式培训体系结构由一个Learner和多个工作器组成。

其中,Learner负责学习和更新策略,Worker负责通过gRPC交换和共享数据、网络参数的数据收集。

Worker可以利用多进程方式与多个游戏环境同时交互,也可以通过I/O同步读取离线数据。

这种并行化的执行方式大大提高了数据采集的速度,提高了训练速度( 5个小时可以达到另一种分布式训练算法2天所能达到的同等性能)。

此外,模块化设计还允许该框架在单节点调试模式和多节点分布式训练模式之间切换,而无需修改代码,从而大大降低了算法实现和训练的难度

在94.4%的胜率和比赛平均3分的纯胜点多智能体( GRF )游戏上不同算法的比较结果中,TiKick的最终算法( +AW )为最高胜率) 94.4 ) )和最大的目标差达到了最佳性能。

TrueSkill (机器学习中竞技类游戏的排名系统)的得分也是第一。

TiKick和内置AI的对战分别达到了94.4%的胜率和比赛平均3分的网胜分。

横向比较了TiKick和GRF学术场景的基线算法,TiKick在所有场景中都达到了最佳性能和最低的采样复杂度,差异明显。

与其中的基线MAPPO进行比较,发现5个场景中4个场景均以100万步达到最高分数。

作者介绍黄世宇、清华大学博士生,研究方向是计算机视觉、强化学习和深度学习的交叉领域。 曾在华为方舟实验室、腾讯AI、卡内基梅隆大学和商汤工作。

合作作品也是来自清华大学的陈文泽。

除此之外,作者还包括国防科技大学的龙飞章、腾讯AI实验室的李子洋、朱凤鸣、叶恒、清华大学的陈亭。

的作者是清华大学的朱军教授。

论文地址: https://arxiv.org/ABS/2110.04507

项目地址: https://github.com/tar TRL/ti kick

参考链接: https://zhuan LAN.zhi Hu.com/p/421572915

【编辑推荐】

    相关文章Related

    返回栏目>>

    河洛网首页

    Copyright © 2019 河洛网 版权所有 dahuimr@163.com