超人类水准！多图详解星际争霸2 AI AlphaStar

如题所述

举报该问题

推荐答案 2024-08-31

DeepMind在伦敦线上直播中介绍了其最新的AI研发进展，其中包括星际争霸2 AI AlphaStar的最新成果。AlphaStar由DeepMind团队联合研发负责人Oriol Vinyals和David Silver开发，后者也是AlphaGo项目的核心开发人员。AlphaStar在2018年12月的比赛中以5:0的战绩击败了Team Liquid的职业星际2选手TLO，随后经过更多训练后，再次以同样战绩击败了来自同一战队的职业选手MaNa。直播中回放并解说了比赛中的数场比赛，展示了AlphaStar在比赛中的成熟策略和超越职业选手水平的微操能力。

AlphaStar在比赛中展现出了职业选手般的建筑布局，快速派出侦查兵探索地图以及对方基地，建造大量工人以快速建立资源优势。AlphaStar能够同时在地图上多个地点展开战斗，这一点超出了人类选手的应对能力。AlphaStar在直播中再次与MaNa进行了比赛，这次AlphaStar是一个重新训练的新版本，需要自己控制视角，MaNa最终取得了胜利。AlphaStar的详细介绍请见下文。

星际争霸AI背景

自AlphaGo攻克围棋并取得超出人类顶尖棋手的水平之后，研究人员们转向了非完全信息博弈，例如德州扑克。深度学习研究人员希望借助深度强化学习的力量探索更复杂的博弈/游戏。星际争霸2作为即时战略游戏，具有复杂的游戏环境和多玩家互动，为AI研究提供了更深层次的挑战。星际争霸2的AI研究领域和DOTA2研究领域分别来自三星和OpenAI，各自在不同方面探索了AI策略和执行。

AlphaStar技术介绍

AlphaStar是基于深度强化学习的系统，使用长序列建模学习任务。其模型设计以长序列建模为核心，采用Transformer网络、深度LSTM网络、自动回归策略头和中心化评分基准。AlphaStar模型在人类比赛数据上进行了初始训练，随后通过自我对战和持续提升，不断进化网络结构和策略多样性。AlphaStar在自我对战过程中产生了多种不同的策略，这些策略在训练中不断优化，最终形成了综合最优解。

AlphaStar训练策略

AlphaStar的初始训练策略与AlphaGo相似，利用人类比赛的回放数据进行模仿学习，快速学习到高水平玩家的基础策略和微操。AlphaStar随后进行了自我对战训练，通过不断更新和记录多个版本的网络（AlphaStar联赛），在提升网络水平的同时保持策略多样性。AlphaStar联赛中的智能体在不同学习目标的引导下，产生多样化的策略，这些策略在自我对战过程中不断优化，最终形成了能够稳定击败早期策略的策略。

AlphaStar游戏表现

AlphaStar的操作频率较低，平均为280左右，略低于人类选手的平均390 APM。AlphaStar在比赛中的计算延时平均为350毫秒，这一特点使得它能够在较慢的速度下执行复杂的策略。AlphaStar在比赛中展现出了强大的微操能力，能够在短时间内快速决策，高效地进行单位管理、资源开发和战略实施。

AlphaStar的算力需求

为了支持AlphaStar的训练和对战，DeepMind构建了大规模可扩展的分布式训练环境，使用谷歌TPUv3进行训练，支持成群的AlphaStar实例同时运行。AlphaStar联赛的自我对战训练过程持续了14天，每个AlphaStar智能体使用了16个TPU，相当于每个智能体都有长达200年的游戏时间。训练后的模型可以在单块消费级GPU上运行。

AlphaStar的展望

DeepMind认为，星际争霸2 AI AlphaStar的开发体现了复杂、具有代表性的任务解决技术，可以应用于更多其他复杂问题。AlphaStar的技术架构可以用于更多不完全信息的长序列建模任务，如天气预测、气候建模、语言理解等。DeepMind将继续开发AlphaStar项目，并利用其中的技术改善更多任务。AlphaStar的训练策略为通往安全、鲁棒的AI提供了一种新路径，AlphaStar中提出的方法具有潜力挖掘，未来可能成为安全关键问题中的重要组成部分。DeepMind希望最终能够创建出真正智慧的系统，帮助解决全球最重要的科学难题。

温馨提示：答案为网友推荐，仅供参考

当前网址：http://99.wendadaohang.com/zd/vtvve7WjXjtvO7zBe7O.html

相似回答

大家正在搜