下図は、強化学習(RL : Reinforcement Learning)のコアループを説明するために使われる典型的な図です。以下、このループの各要素を分解して説明します。

エージェント
エージェントは、学習させるモデルを指します。AIアリーナでは、フィードフォワードニューラルネットワークを使用してエージェントを表現しています。 コード化されたスターター エージェントは スターターモデル上 で確認できます。
環境
これは、エージェントが動作している世界を指しますです。強化学習の目標は、エージェントが特定の環境で最適に行動することを学習させることです。 AIアリーナの場合、環境はバトル アリーナです。ゲーム環境
状態(ステート)
状態は、任意の時点における環境のスナップショットです。エージェントは、この観察結果を利用して、何をすべきかを決定します。言い換えれば、状態は、エージェントの意思決定プロセスで使用されるコンテキストだということです。より詳しく知りたい方は 状態空間 をご覧ください。
報酬
報酬は、エージェントを訓練するために使用されます。もし、ある行動がプラスの報酬につながれば、エージェントはその行動をより頻繁に行うようになります。一方、ある行動が負の報酬(罰)をもたらすと、エージェントはその行動を取る頻度が減ります。エージェントにインセンティブを与えるために、どんな報酬関数でも設計することができます!
アクション
各時間ステップで、エージェントは何をすべきかを決定する必要があります。 エージェントが行う各決定は、アクションと呼ばれます。
一般に、強化学習アルゴリズムは、ポリシーベース方式とバリューベース方式の2つのアプローチに大別されます。アクタークリティック法のようなハイブリッドなアプローチもありますが、ここではこの2つに絞って説明します。
ポリシーベース方式
このバケット内のモデルは、状態をポリシーに直接マッピングさせます。 したがって、ポリシーベースのアルゴリズムの目標は、ポリシーを直接最適化することです。
バリューベース方式
このバケットのモデルは、状態を特定の状態またはアクションの値にマッピングすることに重点を置いています。 あるモデルは、どの状態が次に移行するのに最適なのかを決定するために、状態の価値をモデル化することに重点を置いています。 また、行動価値 (すなわち、与えられた状態で特定の行動をとることがどれほど良いことか) をモデル化することに重点を置くものもあります。 このことから、バリューベースのアルゴリズムの目標は、価値関数を学習し、価値関数をポリシーにマッピングするヒューリスティックを構築することにより、ポリシーを間接的に最適化することであると推測できます。
現在、リサーチャーは、我々のプラットフォームでポリシーベース方式とバリューベース方式(Q-value)の手法を使用できます。ただし、フィードフォワードニューラルネットワーク(ニューラルネットワーク)を関数近似として用いることが条件です。さらに、イーサリアムのブロックチェーンの制約上、重みの数が3121未満であるという制約があります。この制約の回避策を見つけるために積極的に取り組んでいます。
<aside> ↩️ 戻る
</aside>
<aside> ➡️ 次のページ
</aside>