在与其他模型作战之前,你需要一个门柱来衡量你的模型的实力,所以我们启用了对我们基于规则的代理进行测试。我们称它们为基准。
每个基准包括与一个基于规则的代理对战10次 - 每侧开始各5次。
以下是基准测试的评分方法:
const getBenchmarkScore = (yourHealth, opponentHealth, timeRemaining, startingTime) => {
const relativeHealth = yourHealth - opponentHealth
var resultMultiple
if (relativeHealth > 0) resultMultiple = 1
else if (relativeHealth < 0) resultMultiple = -1
else resultMultiple = 0
const timeRemainingScore = timeScoreMultiple * resultMultiple * timeRemaining / startingTime
const healthRemainingScore = healthScoreMultiple * relativeHealth
return timeRemainingScore + healthRemainingScore
}
<aside> 🚨 我们在python包中为你提供了基准代理人来进行对战训练。然而,请注意不要过度适应基准,因为当你试图与排行榜上的其他模型对决时,这可能是不利的!
</aside>
我们为研究人员提供工具,对照基准分析他们的模型性能。
这时,它变得非常有趣。你也可以观看你的模型与基准的较量!
我们为你提供了一个工具,以分析更多的代理政策。研究人员可以切换状态,看看人工智能在每种可能的情况下会做什么。我们使状态的每个方面都可以切换。
在你对你的模型在基准上的表现感到满意后,加入排名赛,与来自世界各地的其他模型进行战斗。
<aside> ⬅️ 上一页
</aside>
<aside> ➡️ 下一页
</aside>