Self-Play | Notion

Overview

Reinforcement Learning это техника обучения агента действиям, основанная на вознаграждении или наказании за взаимодействие агента в среде. Напомним, что в RL агент выполняет ряд действий в среде, и на основе результатов его деятельности агенту назначается вознаграждение (или наказание), а на основе этого вознаграждения/наказания агент изменяет свои действия.

Рассмотрим игру одного агента против среды, например, пасьянс; агент может играть "против" среды несколько раз, и мы можем изменять среду (менять сложность, рандомизировать и т.д.), чтобы нацелить агента на конкретное обучение. А как насчет соревновательных игр с несколькими игроками, таких как AI Arena?

Зачем нам нужно Self-Play?

Можно создать противника как часть среды и запускать своего агента против этого противника; например, можно создать бойца, основанного на правилах, и тренировать своего агента RL против этого бойца. Этот метод, однако, имеет ограниченное применение. Этому есть множество причин, но три основные из них следующие:

Тренировка только против одного агента способствует чрезмерной адаптации к конкретной стратегии. Если вы тренируете своего бойца с помощью RL только против одной стратегии боя, ваш боец может показывать адекватные результаты против этой стратегии, но, скорее всего, будет плохо работать против других стратегий.
Стратегия, используемая созданным бойцом на основе правил, также имеет большое значение для обучения. Например, если вы тренируете своего бойца против сложного бойца на основе правил, ваш боец, возможно, не сможет эффективно обучаться, если он уже не владеет достойной стратегией. В такой ситуации боец, основанный на правилах, скорее всего, будет доминировать над вашим агентом. И наоборот, если вы тренируете своего бойца против бойца с легкими правилами, ваш боец может не научиться многому.
Создание нескольких бойцов на основе правил непрактично, потому что для этого требуется большое количество навыков (и времени). Это отнимает весь смысл RL.

Есть ли способ создать одного динамического противника, который автоматически меняется по мере тренировки нашего агента?

Да, есть! Почему бы не тренировать агента против самого себя?

Что такое Self-Play?

Self-play - это именно то, что следует из названия: тренировка агента против самого себя в RL. В self-play ваш агент дублируется, и оба агента тренируются друг против друга. В каждой симуляции агенты обновляются поочередно.

Таким образом, ваш агент сопоставляется с динамичным противником, стратегия которого меняется и который находится примерно на уровне навыков агента. Со временем ваш агент может даже открыть новые, возможно, "сверхчеловеческие" стратегии!

<aside> ⬅️ Previous

</aside>

<aside> ➡️ Next

</aside>