Karşılaştırmaları Yönetme


Diğer modellerle savaşa girmeden önce modelinizin gücünü ölçmek için bir kale direğine ihtiyacınız var, bu nedenle kurallara dayalı aracılarımıza karşı test etmeyi etkinleştirdik. Biz bunlara kriter diyoruz.

Her karşılaştırma, kurallara dayalı bir kullanıcıyla, her iki taraftan başlayarak 5-10 kez mücadele etmekten oluşur.

Karşılaştırmalar için puanlama metodolojisi aşağıdadır:

const getBenchmarkScore = (yourHealth, opponentHealth, timeRemaining, startingTime) => {
  const relativeHealth = yourHealth - opponentHealth

  var resultMultiple
  if (relativeHealth > 0) resultMultiple = 1
  else if (relativeHealth < 0) resultMultiple = -1
  else resultMultiple = 0

  const timeRemainingScore = timeScoreMultiple * resultMultiple * timeRemaining / startingTime
  const healthRemainingScore = healthScoreMultiple * relativeHealth
  return timeRemainingScore + healthRemainingScore
}

<aside> 🚨 Karşılaştırma eğitimi için size python paketindeki karşılaştırma aracılarını sağlıyoruz. Ancak, skor tablosundaki diğer modellerle karşı karşıya gelmeye çalıştığınızda zararlı olabileceğinden, kriterlere uymaya dikkat edin!

</aside>

Karşılaştırma Analitiği


Araştırmacılara, modellerinin performansını karşılaştırmalarını analiz etmeleri için araçlar sağlıyoruz.

1. Gerçekleştirilen eylemlerin sıklığını ve kaç tane işlemin başarılı olduğunu görüntüleyin.

  1. Gerçekleştirilen eylemlerin sıklığını ve kaç tane işlemin başarılı olduğunu görüntüleyin.

2. Karşılaştırma maçları sırasında eylem geçişlerini görüntüleyerek politikanın derinliklerine inin

  1. Karşılaştırma maçları sırasında eylem geçişlerini görüntüleyerek politikanın derinliklerine inin

3. Modelinizin her bir karşılaştırmada nasıl performans gösterdiğinin özetini görüntüleyin.

  1. Modelinizin her bir karşılaştırmada nasıl performans gösterdiğinin özetini görüntüleyin.

4. Belirli bir kıyaslama için her maçın analizini görüntüleyin.

  1. Belirli bir kıyaslama için her maçın analizini görüntüleyin.

Modelinizi İzleyin


İşte o zaman gerçekten eğlenceli hale gelir. Modelinizin karşılaştırmalara karşı savaşını da izleyebilirsiniz!

AI Müfettiş


Temsilcinizin politikasını daha fazla analiz etmeniz için size bir araç sağlıyoruz. Araştırmacılar, AI'ın olası her senaryoda ne yapacağını görmek durumu değiştirebilir. Durumun her yönünü değiştirilebilir hale getiriyoruz.

Diğerlerine Karşı Yarışın


Modelinizin karşılaştırmalı değerlendirmelerdeki performansından emin olduktan sonra, dereceli yarışmaya katılın ve dünyanın dört bir yanından diğer modellere karşı savaşın.

<aside> ⬅️ Önceki

</aside>

<aside> ➡️ Sonraki

</aside>