Genel Bakış


Aşağıda, destekli öğrenmede (DÖ) temel döngüyü açıklamak için kullanılan tipik diyagram yer almaktadır. Bu döngünün her bir bileşenini aşağıda açıklıyoruz.

AgentEnvironment.jpeg

Temsilci

Temsilci, eğitmekte olduğunuz modeldir. AI Arena için temsil etmek üzere ileri beslemeli neural networks kullanıyoruz. Sizin için kodladığımız başlangıç temsilcileri inceleyebilirsiniz: Başlangıç Modelleri.

Mekan

Bu, temsilcinin faaliyet gösterdiği dünyadır. Destekli Öğrenme'nin amacı, bir temsilcinin belirli bir ortamda en iyi şekilde hareket etmeyi öğrenmesini sağlamaktır. AI Arena için ortam, savaş alanıdır - bkz.Oyun Mekanı.

Evre

Evre, herhangi bir zamanda ortamın anlık görüntüsüdür. Temsilciler ne yapacaklarına karar vermek için bu gözlemi kullanırlar. Başka bir deyişle evre, temsilcinin karar verme sürecinde kullanılan bağlamdır. Daha fazlasını öğrenmek için:AI Arena Evre Alanı.

Ödül

Ödüller temsilciyi eğitmek için kullanılır. Bir eylem olumlu bir ödülle sonuçlanırsa, temsilci bu eylemi daha sık yapmaya teşvik edilir. Bununla birlikte, bir eylem olumsuz bir ödülle (cezayla) sonuçlanırsa, temsilci bu eylemi daha az sıklıkla gerçekleştirir. Temsilcinizi teşvik etmek için yaratıcı olabilir ve istediğiniz herhangi bir ödül işlevini tasarlayabilirsiniz!

Eylem

Her adımında, temsilci ne yapacağına karar vermelidir. Bir temsilcinin verdiği her karara eylem denir.

Eğitim Metodları


Genel olarak konuşursak, Destekli Öğrenim algoritmaları iki ana yaklaşıma ayrılabilir: ilke tabanlı yöntemler ve değer tabanlı yöntemler. Elbette aktör-eleştirmen yöntemleri gibi melez yaklaşımlar da var ama şimdilik ikisine odaklanacağız.

Politika Tabanlı Yöntemler

Bu gruptaki modeller, durumu doğrudan politikaya eşler. Bu nedenle, ilke tabanlı algoritmaların amacı doğrudan politika için optimize etmektir.

Değer Tabanlı Yöntemler

Bu gruptaki modeller, durumu belirli bir eylemin değerine eşlemeye odaklanır. Bazı modeller, bir sonraki adıma geçmek için en iyi durumun hangisi olduğunu belirlemek için durum değerini modellemeye odaklanır. Diğerleri ise eylem değerini modellemeye odaklanır (yani, belirli bir durumda belirli bir eylemi gerçekleştirmenin ne kadar iyi olduğu). Daha sonra, değer tabanlı algoritmaların amacının, değer fonksiyonlarını öğrenerek politika için dolaylı olarak optimize etmek ve ardından değer fonksiyonunu bir politikaya eşlemek için bir buluşsal yöntem oluşturmak olduğu sonucuna varabiliriz.

AI Arena’da Destekli Öğrenim Modelleri


Şu andan itibaren, araştırmacılar platformumuzda politika yöntemlerini ve eylem-değeri (Q-değeri) yöntemlerini kullanabilirler. Tek koşul, fonksiyon yaklaşımı olarak ileri beslemeli bir neural network (Neural Networks) ****kullanmalarıdır. Ek olarak, Ethereum blok zincirindeki kısıtlamalar nedeniyle ağırlık sayısının 3121'den az olması gibi bir kısıtlama vardır. Bu kısıtlamaya geçici bir çözüm bulmak için aktif olarak çalışıyoruz.

<aside> ↩️ Geri Dön

</aside>

<aside> ➡️ Sonraki

</aside>