Ниже приведена типичная диаграмма, используемая для описания основного цикла RL. Ниже мы разберем каждый компонент этого цикла.

Агент
Агент - это модель, которую вы обучаете. В AI Arena для представления агента мы используем нейронные сети с прямолинейным движением. Вы можете ознакомиться со стартовыми агентами, которые мы разработали для вас Стартовые модели.
Окружение
Это мир, в котором действует агент. Цель RL состоит в том, чтобы агент научился действовать оптимально в заданной среде. Для AI Arena окружением является арена сражения - см. Игровое окружение.
Состояние
Состояние - это моментальный снимок окружения в любой момент времени. Агенты используют это наблюдение, чтобы решить, что делать. Другими словами, состояние - это контекст, используемый в процессе принятия решения агентом. Чтобы узнать больше, см. AI Arena Пространство Состояний.
Награды
Награды используются для обучения агента. Если действие приводит к положительному вознаграждению, у агента появляется стимул выполнять это действие чаще. Однако если действие приводит к отрицательному вознаграждению (наказанию), то агент выполняет это действие реже. Вы можете проявить творческий подход и разработать любую функцию вознаграждения для стимулирования агента!
Действие.
На каждом временном шаге агент должен решить, что делать. Каждое решение, которое принимает агент, называется действием
Вообще говоря, алгоритмы RL можно разделить на два основных подхода: методы, основанные на политике, и методы, основанные на ценности. Конечно, существуют и гибридные подходы, такие как методы актор-критик, но пока мы сосредоточимся на этих двух подходах.
Policy-Based Methods
Модели в этой bucket map отображают состояние непосредственно на политику. Таким образом, целью алгоритмов, основанных на политике, является прямая оптимизация для политики.
Value-Based Methods
Модели в этой группе сосредоточены на сопоставлении состояния со значением данного состояния или действия. Некоторые модели фокусируются на моделировании ценности состояния, чтобы определить, какое состояние является наилучшим для перехода к следующему. Другие сосредоточены на моделировании ценности действия (т.е. насколько хорошо предпринять определенное действие в данном состоянии). Мы можем сделать вывод, что целью алгоритмов, основанных на ценности, является косвенная оптимизация политики путем изучения функций ценности, а затем построения эвристики для сопоставления функции ценности с политикой.
На данный момент исследователи могут использовать методы политики и методы " действие-ценность" (Q-ценность) на нашей платформе. Единственным условием является использование нейронной сети с прямолинейным движением. (Нейронные сети) в качестве аппроксимации функции. Кроме того, существует ограничение на то, что количество весов не должно превышать 3121 из-за ограничений блокчейна Ethereum. Мы активно работаем над поиском обходного пути для этого ограничения.
<aside> ↩️ Return
</aside>
<aside> ➡️ Next
</aside>