数据收集


为了在我们的健身房里训练一个模型,我们首先需要写一个简单的战斗循环来收集训练数据。我们使用一个类似于OpenAI的体育馆环境的框架,在这个框架中,你必须调用 env.step(action) 来进入下一个时间步骤。

def run_battle(env, randomize_attributes = False, random_policy = False):
    done = False
    data_collection = {"s": [], "a": [], "r": []}
    your_state, opponent_state = env.reset(randomize_attributes, random_policy)
    your_attributes = env.your_fighter["battle_attributes"]
    opponent_attributes = env.opponent_fighter["battle_attributes"]
    state = get_state(your_state, opponent_state, your_attributes, opponent_attributes)
    while not done:
        action = env.fighters[0]["model"].select_action(state)
        your_new_state, opponent_new_state, done, winner = env.step(action)
        
        reward = get_reward(your_state, your_new_state, opponent_state, opponent_new_state, winner)
        new_state = get_state(your_new_state, opponent_new_state, your_attributes, opponent_attributes)
        
        data_collection["s"].append(state[0])
        data_collection["a"].append(action)
        data_collection["r"].append(reward)
        your_state = your_new_state.copy()
        opponent_state = opponent_new_state.copy()
        state = new_state.copy()

    return winner, data_collection

在这个循环中,我们收集状态、行动和奖励作为训练数据。然而,我们还没有定义 get_reward 函数。下面我们定义了一个简单的奖励函数来让你开始。然而,我们希望研究人员能想出比这更有创意的奖励函数。

def get_reward(your_state, your_new_state, opponent_state, opponent_new_state, winner):    
    opponent_health_delta = opponent_new_state["health"]- opponent_state["health"]
    your_health_delta = your_new_state["health"] - your_state["health"]
    
    hit_reward = (opponent_health_delta < 0) * 0.3
    get_hit_reward = (your_health_delta < 0) * -0.3
    
    result_reward = 0
    if winner == "You":
        result_reward = 2
    elif winner == "Opponent":
        result_reward = -2
    return result_reward + hit_reward + get_hit_reward

现在我们有了数据收集的核心战役循环,有几种方法可以实施培训。下面我们定义两个我们建立的模板。这两个模板共享相同的训练循环:

GAMMA = 0.95

def training_loop(env, episodes = 100):
    for e in range(episodes):
        winner, gameplay_data = run_battle(env)
        
        states = np.array(gameplay_data["s"])
        actions = np.array(gameplay_data["a"])
        discounted_return = get_discounted_return(gameplay_data["r"], GAMMA)

        env.fighters[0]["model"].train(states, actions, discounted_return)

请参考 初始模型 看看我们如何定义 get_discounted_return 函数。

<aside> ♻️ 核心训练环路是按照这个进度重复进行的:

运行战斗 → 收集数据 → 训练

</aside>

单边的RL


大多数研究人员将熟悉这种训练代理的方法。研究人员只专注于改进一个代理,并在一个环境中模拟该代理的行动。对于人工智能竞技场来说,这种类型的训练环境将由游戏以及一个不学习的对手代理组成。在我们的启动模板中,我们使用一个基于规则的代理作为对手。

自我游戏


在这种训练方法中,研究者负责训练两个模型,这些模型最终是彼此的副本。这些模型定期进行异步训练,并不断地更新。这意味着模型将不断面对一个更好的自我版本。为了实现这一点,你只需定义一个间隔,在这个间隔内将你正在训练的模型与对手交换。更多信息见 自我游戏.

SWAP_INTERVAL = 50

if (e + 1) % SWAP_INTERVAL == 0:
		env.swap_fighters()

<aside> ⬅️ 上一页

</aside>

<aside> ↩️ 返回

</aside>