Reinforcement Learning

Обзор

Ниже приведена типичная диаграмма, используемая для описания основного цикла RL. Ниже мы разберем каждый компонент этого цикла.

Агент

Агент - это модель, которую вы обучаете. В AI Arena для представления агента мы используем нейронные сети с прямолинейным движением. Вы можете ознакомиться со стартовыми агентами, которые мы разработали для вас Стартовые модели.

Окружение

Это мир, в котором действует агент. Цель RL состоит в том, чтобы агент научился действовать оптимально в заданной среде. Для AI Arena окружением является арена сражения - см. Игровое окружение.

Состояние

Состояние - это моментальный снимок окружения в любой момент времени. Агенты используют это наблюдение, чтобы решить, что делать. Другими словами, состояние - это контекст, используемый в процессе принятия решения агентом. Чтобы узнать больше, см. AI Arena Пространство Состояний.

Награды

Награды используются для обучения агента. Если действие приводит к положительному вознаграждению, у агента появляется стимул выполнять это действие чаще. Однако если действие приводит к отрицательному вознаграждению (наказанию), то агент выполняет это действие реже. Вы можете проявить творческий подход и разработать любую функцию вознаграждения для стимулирования агента!

Действие.

На каждом временном шаге агент должен решить, что делать. Каждое решение, которое принимает агент, называется действием

Раскройте список для всех действий, доступных в AI Arena (индексы соответствуют этому порядку)

Методы обучения

Вообще говоря, алгоритмы RL можно разделить на два основных подхода: методы, основанные на политике, и методы, основанные на ценности. Конечно, существуют и гибридные подходы, такие как методы актор-критик, но пока мы сосредоточимся на этих двух подходах.

Policy-Based Methods

Модели в этой bucket map отображают состояние непосредственно на политику. Таким образом, целью алгоритмов, основанных на политике, является прямая оптимизация для политики.

Подходы к выбору действий

Value-Based Methods

Модели в этой группе сосредоточены на сопоставлении состояния со значением данного состояния или действия. Некоторые модели фокусируются на моделировании ценности состояния, чтобы определить, какое состояние является наилучшим для перехода к следующему. Другие сосредоточены на моделировании ценности действия (т.е. насколько хорошо предпринять определенное действие в данном состоянии). Мы можем сделать вывод, что целью алгоритмов, основанных на ценности, является косвенная оптимизация политики путем изучения функций ценности, а затем построения эвристики для сопоставления функции ценности с политикой.

Подходы к выбору действий

RL Модели in AI Arena

На данный момент исследователи могут использовать методы политики и методы " действие-ценность" (Q-ценность) на нашей платформе. Единственным условием является использование нейронной сети с прямолинейным движением. (Нейронные сети) в качестве аппроксимации функции. Кроме того, существует ограничение на то, что количество весов не должно превышать 3121 из-за ограничений блокчейна Ethereum. Мы активно работаем над поиском обходного пути для этого ограничения.

<aside> ↩️ Return

</aside>

<aside> ➡️ Next

</aside>