プラットフォームの利用方法 | Notion

ベンチマークの実行

他のモデルと戦う前に、自分のモデルの強さを測るゴールポストが必要です。そこで、私たちはルールベースのエージェントに対するテストを可能にしました。これをベンチマークと呼びます。

各ベンチマークは、ルールベースのエージェントと10回戦うもので、片方から5回ずつ開始します。

以下はベンチマークの採点方法です。

const getBenchmarkScore = (yourHealth, opponentHealth, timeRemaining, startingTime) => {
  const relativeHealth = yourHealth - opponentHealth

  var resultMultiple
  if (relativeHealth > 0) resultMultiple = 1
  else if (relativeHealth < 0) resultMultiple = -1
  else resultMultiple = 0

  const timeRemainingScore = timeScoreMultiple * resultMultiple * timeRemaining / startingTime
  const healthRemainingScore = healthScoreMultiple * relativeHealth
  return timeRemainingScore + healthRemainingScore
}

<aside> 🚨 ベンチマークエージェントはPythonパッケージで提供されているので、それを使用し学習することができます。ただし、ベンチマークに合わせすぎると、リーダーボードで他のモデルと対決するときに不利になる可能性があるので、注意してください

</aside>

ベンチマークの分析

ベンチマークに対するモデルのパフォーマンスを分析するためのツールがリサーチャーに提供されます。

1. 実行されたアクションの頻度と、そのアクションのうち何件が着地に成功したのか表示されます。

実行されたアクションの頻度と、そのアクションのうち何件が着地に成功したのか表示されます。

2. ベンチマークの試合における行動の遷移を見ることで、より深くポリシーを掘り下げることができます。

ベンチマークの試合における行動の遷移を見ることで、より深くポリシーを掘り下げることができます。

3. 各ベンチマークでのモデルのパフォーマンスの概要が表示されます。

各ベンチマークでのモデルのパフォーマンスの概要が表示されます。

4. 指定されたベンチマークの各試合の分析結果を表示します。

指定されたベンチマークの各試合の分析結果を表示します。

モデルの観察

このときが本当に楽しいのです。自分のモデルがベンチマークと戦っている様子を見ることもできます！

AIインスペクター

エージェントのポリシーをさらに分析するためのツールを提供します。リサーチャーは状態を切り替えて、考えられるすべてのシナリオで AI が何をするかを確認できます。状態のあらゆる側面が切り替え可能です。

他の人たちと競う

ベンチマークに対するあなたのモデルのパフォーマンスに満足したら、ランク付けされたコンペティションに参加し、世界中の他のモデルと競いましょう。

<aside> ⬅️ 戻る

</aside>

<aside> ➡️ 次のページ

</aside>