他のモデルと戦う前に、自分のモデルの強さを測るゴールポストが必要です。そこで、私たちはルールベースのエージェントに対するテストを可能にしました。これをベンチマークと呼びます。
各ベンチマークは、ルールベースのエージェントと10回戦うもので、片方から5回ずつ開始します。
以下はベンチマークの採点方法です。
const getBenchmarkScore = (yourHealth, opponentHealth, timeRemaining, startingTime) => {
const relativeHealth = yourHealth - opponentHealth
var resultMultiple
if (relativeHealth > 0) resultMultiple = 1
else if (relativeHealth < 0) resultMultiple = -1
else resultMultiple = 0
const timeRemainingScore = timeScoreMultiple * resultMultiple * timeRemaining / startingTime
const healthRemainingScore = healthScoreMultiple * relativeHealth
return timeRemainingScore + healthRemainingScore
}
<aside> 🚨 ベンチマークエージェントはPythonパッケージで提供されているので、それを使用し学習することができます。ただし、ベンチマークに合わせすぎると、リーダーボードで他のモデルと対決するときに不利になる可能性があるので、注意してください
</aside>
ベンチマークに対するモデルのパフォーマンスを分析するためのツールがリサーチャーに提供されます。




このときが本当に楽しいのです。自分のモデルがベンチマークと戦っている様子を見ることもできます!
エージェントのポリシーをさらに分析するためのツールを提供します。 リサーチャーは状態を切り替えて、考えられるすべてのシナリオで AI が何をするかを確認できます。 状態のあらゆる側面が切り替え可能です。
ベンチマークに対するあなたのモデルのパフォーマンスに満足したら、ランク付けされたコンペティションに参加し、世界中の他のモデルと競いましょう。
<aside> ⬅️ 戻る
</aside>
<aside> ➡️ 次のページ
</aside>