概览


强化学习 是在奖励或惩罚所述代理在环境中的互动的基础上教导代理采取行动的技术。回顾一下,在RL中,代理在环境中采取一系列行动,根据代理的表现,对代理进行奖励(或惩罚),并根据所述奖励/惩罚,代理改变其采取的行动。

考虑一个代理对环境的游戏,如纸牌游戏;代理可以多次 "对抗"环境,我们可以改变环境(改变难度、随机化等),对代理进行特定的训练。那么,有多个玩家的竞技游戏呢,如AI Arena?

我们为什么需要自我游戏?


有可能将对手编码为环境的一部分,并让你的代理对上述对手进行训练;例如,人们可以编码一个基于规则的拳手,并针对上述拳手训练你的RL代理。然而,这种方法的效用有限。有多种原因,但有三个主要原因:

有没有办法创建一个动态的对手,随着我们的代理人的训练而自动改变?

是的,有的!为什么不训练一个代理人与自己对抗呢?

什么是自我游戏?


自我游戏正如其名:在RL训练中让你的代理与自己对抗。在自我游戏中,你的代理被复制,两个代理互相训练。代理在每次模拟中都会交替更新。

这样,你的代理将与一个动态的对手相匹配,这个对手的策略会发生变化,而且与代理的技能水平差不多。随着时间的推移,你的代理人甚至可能发现新的,也许是 "超人 "的策略!

<aside> ⬅️ 上一页

</aside>

<aside> ➡️ 下一页

</aside>