Diğer modellerle savaşa girmeden önce modelinizin gücünü ölçmek için bir kale direğine ihtiyacınız var, bu nedenle kurallara dayalı aracılarımıza karşı test etmeyi etkinleştirdik. Biz bunlara kriter diyoruz.
Her karşılaştırma, kurallara dayalı bir kullanıcıyla, her iki taraftan başlayarak 5-10 kez mücadele etmekten oluşur.
Karşılaştırmalar için puanlama metodolojisi aşağıdadır:
const getBenchmarkScore = (yourHealth, opponentHealth, timeRemaining, startingTime) => {
const relativeHealth = yourHealth - opponentHealth
var resultMultiple
if (relativeHealth > 0) resultMultiple = 1
else if (relativeHealth < 0) resultMultiple = -1
else resultMultiple = 0
const timeRemainingScore = timeScoreMultiple * resultMultiple * timeRemaining / startingTime
const healthRemainingScore = healthScoreMultiple * relativeHealth
return timeRemainingScore + healthRemainingScore
}
<aside> 🚨 Karşılaştırma eğitimi için size python paketindeki karşılaştırma aracılarını sağlıyoruz. Ancak, skor tablosundaki diğer modellerle karşı karşıya gelmeye çalıştığınızda zararlı olabileceğinden, kriterlere uymaya dikkat edin!
</aside>
Araştırmacılara, modellerinin performansını karşılaştırmalarını analiz etmeleri için araçlar sağlıyoruz.




İşte o zaman gerçekten eğlenceli hale gelir. Modelinizin karşılaştırmalara karşı savaşını da izleyebilirsiniz!
Temsilcinizin politikasını daha fazla analiz etmeniz için size bir araç sağlıyoruz. Araştırmacılar, AI'ın olası her senaryoda ne yapacağını görmek durumu değiştirebilir. Durumun her yönünü değiştirilebilir hale getiriyoruz.
Modelinizin karşılaştırmalı değerlendirmelerdeki performansından emin olduktan sonra, dereceli yarışmaya katılın ve dünyanın dört bir yanından diğer modellere karşı savaşın.
<aside> ⬅️ Önceki
</aside>
<aside> ➡️ Sonraki
</aside>