DeepMind在伦敦线上直播中介绍了其最新的AI研发进展,其中包括星际争霸2 AI AlphaStar的最新成果。AlphaStar由DeepMind团队联合研发负责人Oriol Vinyals和David Silver开发,后者也是AlphaGo项目的核心开发人员。AlphaStar在2018年12月的比赛中以5:0的战绩击败了Team Liquid的职业星际2选手TLO,随后经过更多训练后,再次以同样战绩击败了来自同一战队的职业选手MaNa。直播中回放并解说了比赛中的数场比赛,展示了AlphaStar在比赛中的成熟策略和超越职业选手水平的微操能力。
AlphaStar在比赛中展现出了职业选手般的建筑布局,快速派出侦查兵探索地图以及对方基地,建造大量工人以快速建立资源优势。AlphaStar能够同时在地图上多个地点展开战斗,这一点超出了人类选手的应对能力。AlphaStar在直播中再次与MaNa进行了比赛,这次AlphaStar是一个重新训练的新版本,需要自己控制视角,MaNa最终取得了胜利。AlphaStar的详细介绍请见下文。
星际争霸AI背景
自AlphaGo攻克围棋并取得超出人类顶尖棋手的水平之后,研究人员们转向了非完全信息博弈,例如德州扑克。深度学习研究人员希望借助深度强化学习的力量探索更复杂的博弈/游戏。星际争霸2作为即时战略游戏,具有复杂的游戏环境和多玩家互动,为AI研究提供了更深层次的挑战。星际争霸2的AI研究领域和DOTA2研究领域分别来自三星和OpenAI,各自在不同方面探索了AI策略和执行。
AlphaStar技术介绍
AlphaStar是基于深度强化学习的系统,使用长序列建模学习任务。其模型设计以长序列建模为核心,采用Transformer网络、深度LSTM网络、自动回归策略头和中心化评分基准。AlphaStar模型在人类比赛数据上进行了初始训练,随后通过自我对战和持续提升,不断进化网络结构和策略多样性。AlphaStar在自我对战过程中产生了多种不同的策略,这些策略在训练中不断优化,最终形成了综合最优解。
AlphaStar训练策略
AlphaStar的初始训练策略与AlphaGo相似,利用人类比赛的回放数据进行模仿学习,快速学习到高水平玩家的基础策略和微操。AlphaStar随后进行了自我对战训练,通过不断更新和记录多个版本的网络(AlphaStar联赛),在提升网络水平的同时保持策略多样性。AlphaStar联赛中的智能体在不同学习目标的引导下,产生多样化的策略,这些策略在自我对战过程中不断优化,最终形成了能够稳定击败早期策略的策略。
AlphaStar游戏表现
AlphaStar的操作频率较低,平均为280左右,略低于人类选手的平均390 APM。AlphaStar在比赛中的计算延时平均为350毫秒,这一特点使得它能够在较慢的速度下执行复杂的策略。AlphaStar在比赛中展现出了强大的微操能力,能够在短时间内快速决策,高效地进行单位管理、资源开发和战略实施。
AlphaStar的算力需求
为了支持AlphaStar的训练和对战,DeepMind构建了大规模可扩展的分布式训练环境,使用谷歌TPUv3进行训练,支持成群的AlphaStar实例同时运行。AlphaStar联赛的自我对战训练过程持续了14天,每个AlphaStar智能体使用了16个TPU,相当于每个智能体都有长达200年的游戏时间。训练后的模型可以在单块消费级GPU上运行。
AlphaStar的展望
DeepMind认为,星际争霸2 AI AlphaStar的开发体现了复杂、具有代表性的任务解决技术,可以应用于更多其他复杂问题。AlphaStar的技术架构可以用于更多不完全信息的长序列建模任务,如天气预测、气候建模、语言理解等。DeepMind将继续开发AlphaStar项目,并利用其中的技术改善更多任务。AlphaStar的训练策略为通往安全、鲁棒的AI提供了一种新路径,AlphaStar中提出的方法具有潜力挖掘,未来可能成为安全关键问题中的重要组成部分。DeepMind希望最终能够创建出真正智慧的系统,帮助解决全球最重要的科学难题。
温馨提示:答案为网友推荐,仅供参考