执行基准测试


在与其他模型作战之前,你需要一个门柱来衡量你的模型的实力,所以我们启用了对我们基于规则的代理进行测试。我们称它们为基准。

每个基准包括与一个基于规则的代理对战10次 - 每侧开始各5次。

以下是基准测试的评分方法:

const getBenchmarkScore = (yourHealth, opponentHealth, timeRemaining, startingTime) => {
  const relativeHealth = yourHealth - opponentHealth

  var resultMultiple
  if (relativeHealth > 0) resultMultiple = 1
  else if (relativeHealth < 0) resultMultiple = -1
  else resultMultiple = 0

  const timeRemainingScore = timeScoreMultiple * resultMultiple * timeRemaining / startingTime
  const healthRemainingScore = healthScoreMultiple * relativeHealth
  return timeRemainingScore + healthRemainingScore
}

<aside> 🚨 我们在python包中为你提供了基准代理人来进行对战训练。然而,请注意不要过度适应基准,因为当你试图与排行榜上的其他模型对决时,这可能是不利的!

</aside>

基准分析


我们为研究人员提供工具,对照基准分析他们的模型性能。

1. 查看执行行动的频率与成功落地的行动的数量。

  1. 查看执行行动的频率与成功落地的行动的数量。

2. 通过查看基准比赛期间的动作转换,更深入地挖掘政策。

  1. 通过查看基准比赛期间的动作转换,更深入地挖掘政策。

3. 查看你的模型在每个基准上的表现总结。

  1. 查看你的模型在每个基准上的表现总结。

4. 查看对某一基准的每个匹配的分析。

  1. 查看对某一基准的每个匹配的分析。

观察你的模型


这时,它变得非常有趣。你也可以观看你的模型与基准的较量!

AI检查器


我们为你提供了一个工具,以分析更多的代理政策。研究人员可以切换状态,看看人工智能在每种可能的情况下会做什么。我们使状态的每个方面都可以切换。

与他人竞争


在你对你的模型在基准上的表现感到满意后,加入排名赛,与来自世界各地的其他模型进行战斗。

<aside> ⬅️ 上一页

</aside>

<aside> ➡️ 下一页

</aside>