数研院参与主办IEEE CoG 2022足球AI赛，获双赛积分榜排名第二

投中网 | 投中网

2022-08-26 11:09:48

本次研究院提供的baseline模型训练来自于数研院自研的基于决策智能大模型的多智能体训练框架，其优势在于模型的能力不仅能够解决谷歌5vs5和11vs11两个复杂的决策任务，同时也能覆盖多智能体星际环境（StarCraft Mult-agent Challenge）、多智能体Mujoco机器人环境、多智能体粒子环境（Multi-agent Particle World）等多个环境。

近日，人工智能方向游戏领域的国际顶会IEEE游戏大会（IEEE Conference on Games，CoG)首次在国内举办。专注决策智能领域的上海数字大脑研究院（以下简称“数研院”）与中科院自动化研究所合作，参与主办了其中最受关注的足球AI对抗赛，并为这次比赛提供了baseline模型。最终，数研院所提供的baseline 模型在5vs5赛道和11vs11赛道积分排名均仅次于获得冠军的网易。

本次研究院提供的baseline模型训练来自于数研院自研的基于决策智能大模型的多智能体训练框架，其优势在于模型的能力不仅能够解决谷歌5vs5和11vs11两个复杂的决策任务，同时也能覆盖多智能体星际环境（StarCraft Mult-agent Challenge）、多智能体Mujoco机器人环境、多智能体粒子环境（Multi-agent Particle World）等多个环境。因此，模型的通用泛化能力获得了极大的提升，这也表明了研究院的核心技术决策智能大模型在未来通过一个大模型服务多个决策任务场景的巨大空间。

数研院一直致力于成为一家引领全球智能决策领域发展的顶级研究机构和商业企业，其联合创始人、院长为全球知名决策智能领域科学家、UCL计算机系教授汪军，意在将丰硕的科研成果转化为先进的生产力，帮助产业客户实现决策更加科学、高效和智能。目前，数研院已汇聚大量国际顶尖智能决策科研和商业人才，为通信、消费零售、游戏文娱、能源化工等多个领域提供了丰富的解决方案，有力推进了相关产业的数智化升级。

本次IEEE CoG足球多智能体对抗赛是一项兼具挑战性和趣味性的赛事，共吸引了来自海内外的100多支队伍参加，其中既有来自清华、中科院等顶级学府和研究机构的科研强队，也有来自网易、字节跳动等互联网巨头的专业团队。基于数研院自研的多智能体决策框架训得的baseline模型首次参与相关竞赛，就能在强手如林的比赛中取得第二的好成绩，证明了数研院在游戏AI领域的技术优势和工程实力。

该赛题的本质为一个双人零和博弈问题嵌套一个多智能体合作博弈问题，在策略层面，既要协调队友，又要击败对手。由于在博弈双方同步决策的过程中，智能体无法准确获取其他智能体将要采取的动作行为，因此有效的决策行为一方面需要队友之间具备跑位、传球等协作配合能力，另一方面还需要能够观察和预判对手的行为，适时采取截断、阻挡、突破、反击等行动。在宏观层面，足球AI还需要在进攻与防守策略之间做出良好的平衡，其中涉及的团队协作和竞争对抗相当复杂，是当前困扰世界顶尖 AI 研究团队的难题之一。

本次比赛使用的谷歌足球环境，是一个基于开源足球游戏 Gameplay Football 扩展的强化学习环境。它完整模拟了真实足球比赛，包括犯规、角球、点球、边界球和越位等各种标准足球规则。本次比赛采用的是每场3000个环境步，虽然没有主客场之分，也没有替补球员和加时赛，但同样精彩纷呈。赛制基于瑞士轮规则，通过不断的强强对抗，最终决出最强智能体。

5vs5赛道：在对抗中学习，更强对手成就更强自己

在足球模型训练的初期阶段，通过人工调整奖励设置，甄选特定对手，数研院团队让智能体习得了各种基础能力，例如过人、传球、射门等。接下来，团队利用自博弈和基于种群的训练方式，不断提升智能体的综合实力，形成第一轮模型。

在第二轮开始前，团队针对性地搜索并调整了一些关键的超参数，例如影响智能体长短期奖励平衡的折扣因子gamma、影响智能体利用和探索之间平衡的动作熵惩罚的大小等。在进一步稳定算法的同时，这些调整也提升了训练效率，帮助训练出风格更加多样化的策略。

在种群中，团队不仅加入了之前训练出来的强力策略，也加入了一些基于规则的智能体，进一步通过与不同的对手对抗形成新的风格和更综合的策略，例如在面对逼抢风格的对手的时候能学习到全局分球的策略，在面对擅长长传的对手的时候能学习到收缩防守的策略等等。此外，为了得到更加流畅的配合，团队在训练后期极大减轻了动作掩膜的使用：动作掩膜在训练一开始能够显著地加速模型的收敛，但是在模型相对成熟后会限制模型的进一步优化。

11vs11赛道：从模仿中学习，青出于蓝亦能更胜于蓝

由于智能体数量变多，11vs11的情况远远比5vs5复杂，直接从随机权重初始化训练，在对抗最强内置AI的时候就碰了壁，胜率只能达到0.5左右。因此，团队进而采用了模仿学习的思路，对2019年在Kaggle足球单智能体比赛中排名领先、对战数据较为丰富的Wekick、SaltyFish等模型进行了模仿学习。由于2019年比赛只需操控场上的一个主要球员，而本次比赛需要操控场上的所有球员，团队在得到主要球员的模仿学习模型后，进一步结合了之前直接从随机初始化训练得到的模型，用以填充其他球员的动作，得到了相对满意的结果。在直接对抗最强内置AI的情况下，很快就达到了近100%的胜率。这种混合模仿学习模型和强化学习的模型的方法，还可以多次迭代，进一步提升模型能力。

在第一轮正赛中，借鉴5vs5的经验，团队基于不同的训练目的，人工设计了不同的辅助奖励函数，让模型进行自博弈和基于种群的训练，在第一轮比赛得到三种不同风格的主要模型，分别注重进攻、防守和配合。

在第二轮正赛中，除了同样受益于更加合适的超参数，团队还采取了基于角色的奖励函数，使得不同位置的球员能够进一步分化，各司其职。在对手的选择上，考虑到较大的训练量，我们采用了带有优先级的训练方式，即和较强的对手更多地对战，并结合Top-K的方式直接过滤掉较弱的对手。通过这种方式，团队训练出了一种具有全新风格的策略，具有很强的射门能力，甚至学会了通过假动作迷惑对手。这个模型的进一步迭代形成了团队最终的提交。

据项目团队介绍，在足球多智能体的训练过程中，团队在算法的选择、指标的监测、系统的设计以及状态特征、动作掩膜和奖励函数的设计等方面都有深入的洞察和研究，北大相关人员也参与提供了探索思路。参赛过程中，团队采用了华为云ModelArts平台的异构算力集群，极大地提升了训练效率。

在算法研究方面，技术团队也在MAPPO、HAPPO等模型的基础上，进一步拓展了更关注于合作的算法A2PO，不仅缓解了多智能体任务中训练的非平稳性与过拟合问题，在策略更新上实现了更紧的单调提升界（monotonic improvement bound），且具有更好的收敛性质。除了在谷歌足球环境中，我们还验证了A2PO在多智能体星际环境（StarCraft Mult-agent Challenge）、多智能体Mujoco、多智能体粒子环境（Multi-agent Particle World）、多个环境中的表现，均取得了超过现有算法的效果。相关论文近期会公开，敬请关注。

首次参加国际级赛事，就取了baseline模型排名第二的优异成绩，这也证明了数研院在游戏AI领域的技术优势和工程实力。游戏AI作为数研院研究的核心领域之一，成绩颇丰：团队成员曾研发出全球第一款桥牌叫牌AI，并拥有业内首个面向零和博弈的通用求解方案，可覆盖足球、星际争霸、桥牌、象棋、六冠棋等多场景。

此次的战绩也给团队带来了肯定与鼓励，数研院在未来会持续迭代相关决策框架和算法模型，将其投入更多实际应用场景，例如游戏AI的设计和调试、真实足球（篮球）比赛的智能化分析（如训练计划安排、比赛战术制定等）以及工业机器人合作等。可以预见这类方法未来还有望进一步迁移至更复杂、更具有挑战性领域，进一步加速传统行业数智化转型，创造更大的实用价值。

网站编辑：郭靖