为了在我们的健身房里训练一个模型,我们首先需要写一个简单的战斗循环来收集训练数据。我们使用一个类似于OpenAI的体育馆环境的框架,在这个框架中,你必须调用 env.step(action)
来进入下一个时间步骤。
def run_battle(env, randomize_attributes = False, random_policy = False):
done = False
data_collection = {"s": [], "a": [], "r": []}
your_state, opponent_state = env.reset(randomize_attributes, random_policy)
your_attributes = env.your_fighter["battle_attributes"]
opponent_attributes = env.opponent_fighter["battle_attributes"]
state = get_state(your_state, opponent_state, your_attributes, opponent_attributes)
while not done:
action = env.fighters[0]["model"].select_action(state)
your_new_state, opponent_new_state, done, winner = env.step(action)
reward = get_reward(your_state, your_new_state, opponent_state, opponent_new_state, winner)
new_state = get_state(your_new_state, opponent_new_state, your_attributes, opponent_attributes)
data_collection["s"].append(state[0])
data_collection["a"].append(action)
data_collection["r"].append(reward)
your_state = your_new_state.copy()
opponent_state = opponent_new_state.copy()
state = new_state.copy()
return winner, data_collection
在这个循环中,我们收集状态、行动和奖励作为训练数据。然而,我们还没有定义 get_reward
函数。下面我们定义了一个简单的奖励函数来让你开始。然而,我们希望研究人员能想出比这更有创意的奖励函数。
def get_reward(your_state, your_new_state, opponent_state, opponent_new_state, winner):
opponent_health_delta = opponent_new_state["health"]- opponent_state["health"]
your_health_delta = your_new_state["health"] - your_state["health"]
hit_reward = (opponent_health_delta < 0) * 0.3
get_hit_reward = (your_health_delta < 0) * -0.3
result_reward = 0
if winner == "You":
result_reward = 2
elif winner == "Opponent":
result_reward = -2
return result_reward + hit_reward + get_hit_reward
现在我们有了数据收集的核心战役循环,有几种方法可以实施培训。下面我们定义两个我们建立的模板。这两个模板共享相同的训练循环:
GAMMA = 0.95
def training_loop(env, episodes = 100):
for e in range(episodes):
winner, gameplay_data = run_battle(env)
states = np.array(gameplay_data["s"])
actions = np.array(gameplay_data["a"])
discounted_return = get_discounted_return(gameplay_data["r"], GAMMA)
env.fighters[0]["model"].train(states, actions, discounted_return)
请参考 初始模型 看看我们如何定义 get_discounted_return
函数。
<aside> ♻️ 核心训练环路是按照这个进度重复进行的:
运行战斗 → 收集数据 → 训练
</aside>
大多数研究人员将熟悉这种训练代理的方法。研究人员只专注于改进一个代理,并在一个环境中模拟该代理的行动。对于人工智能竞技场来说,这种类型的训练环境将由游戏以及一个不学习的对手代理组成。在我们的启动模板中,我们使用一个基于规则的代理作为对手。
在这种训练方法中,研究者负责训练两个模型,这些模型最终是彼此的副本。这些模型定期进行异步训练,并不断地更新。这意味着模型将不断面对一个更好的自我版本。为了实现这一点,你只需定义一个间隔,在这个间隔内将你正在训练的模型与对手交换。更多信息见 自我游戏.
SWAP_INTERVAL = 50
if (e + 1) % SWAP_INTERVAL == 0:
env.swap_fighters()
<aside> ⬅️ 上一页
</aside>
<aside> ↩️ 返回
</aside>