下面是用于描述强化学习(RL)核心循环的典型图表。我们在下面对这个循环的每个组成部分进行分解。
代理
代理人是你正在训练的模型。对于AI Arena,我们使用前馈神经网络来表示代理。你可以在 初始模型上查看我们为你编码的初始代理。
环境
这是代理所处的世界。RL的目标是让代理人学会在一个给定的环境中采取最佳行动。对于人工智能竞技场,环境就是战斗场 - 见 游戏环境.
状态
状态是环境在任何时间点上的快照。代理人使用这种观察来决定做什么。换句话说,状态是在代理的决策过程中使用的背景。要了解更多信息,请参阅 AI Arena状态空间.
奖励
奖励是用来训练代理的。如果一个行动导致了积极的奖励,代理人就会被激励着更频繁地采取该行动。然而,如果一个行动导致了负面的奖励(惩罚),那么代理就会减少采取该行动的次数。你可以发挥创意,设计任何你想要的奖励功能来激励你的代理!
行动
在每个时间步骤,代理必须决定做什么。代理人做出的每个决定都被称为行动。
一般来说,RL算法可以分为两种主要方法:基于政策的方法和基于价值的方法。当然,也有一些混合方法,如行为者批评法,但我们现在将集中讨论这两种方法。
基于政策的方法
这类模型将状态直接映射到政策上。因此,基于政策的算法的目标是直接对政策进行优化。
基于价值的方法
这个桶中的模型侧重于将状态映射到给定的状态或动作的值。一些模型专注于对状态值进行建模,以确定下一步哪个状态是最好的。其他的模型则专注于行动价值的建模(即在给定的状态下采取特定的行动有多好)。然后我们可以推断出,基于价值的算法的目标是通过学习价值函数来间接优化政策,然后构建一个启发式方法来将价值函数映射到政策。
截至目前,研究人员可以在我们的平台上使用策略方法和行动值(Q值)方法。一个条件是,他们使用前馈神经网络 (神经网络) 作为函数近似。此外,由于以太坊区块链的限制,还有一个约束条件,即权重的数量要小于3121。我们正在积极努力为这个约束找到一个变通的办法。
<aside> ↩️ 返回
</aside>
<aside> ➡️ 下一页
</aside>