トレーニング

なぜトレーニングするのですか？

ゲーミング・コンペティションで新しいNFTを購入すると、そのコアを構成するニューラルネットのパラメータがランダムに生成されます。つまり、初期状態のニューラルネットワークは、まだ何のスキルも身に着けていないため、ランダムな行動をとることになります。

戦闘に備えるには、AIを訓練してスキルを身につけさせたり、効果的な戦闘方針を学習させたりする必要があります。

トレーニングとは、ニューラルネットワークのパラメータを変更し、特定の状況（状態）において、AIに特定の行動をとらせることです。その結果、異なる状態における学習された行動の組み合わせが、ポリシーと呼ばれます。

AIが勝つために必要なスキルを習得するために、模倣学習というトレーニング環境を提供しています。

<aside> ⚖️ バランスについて

AIはバランスの取れたポリシーを持つように訓練することが重要です。

例えば、教えるアクションがパンチだけだとします。AIはどんな状況でもパンチをするように学習してしまいます。これはあまり効果的な戦略とは言えません...

バランスの取れたポリシーを持つAIは、**「汎化」**がうまくできるAIと呼ばれます。これはトレーニングの究極の目的です。

</aside>

模倣学習（Imitation Learning）

あなたが師匠、先生、コーチであり、AIがあなたの弟子であると想像してください。あなたはAIとスパーリングをし、AIは特定の状況下であなたが行う動きを真似るように学習していきます。

これが**模倣学習（IL）**の前提です。

ILは、4つのステップからなる反復ループ🔁です。

🚰 データ収集 - IL プロセスの始まりで、AI に動作を示します。このモジュールでは、NFTではなく、あなたがゲームをプレイします。AIがコピーして学習できるように、（観察された状態での）行動のリストを実際に作成するのです。機械学習の用語では、AIが学習するデータセットを作成することになります。AIは、あなたが作成したデータでしか学習できないので、有用なデータを意図的に作成することが非常に重要であり、それを達成するためにはスキルが必要であることを忘れないでください。

💻 設定 - データを作成したら、次のことができます。

➡️ トレーニングの強度を決める。

新しいデータをどの程度モデルに取り込むか？
AIに以前のトレーニングからどれだけ記憶させるか？

➡️ AIに重点的に学習させたい特徴を明確にする。

例えば、今回のトレーニングでは、相対的な位置関係にフォーカスするようにAIに指示するといったことができます。
これはスパーリングセッションの後のコーチングプロセスと同じだと考えてください。学習したことをファイターの特定の状況に適用します。

🏋️ トレーニング - ****データを収集し設定した後、AIをトレーニングしてパラメータを更新することができます。あなたのAIは進化し、新しいポリシーに適応します。

🔍 検査 - あなたのモデルは更新されましたが、それが何を学習し、より良くなっているのか、実際に知ることができるのでしょうか？答えは「イエス」です。AIインスペクターを使用すると、AIの「脳の中」を見ることができます。AIインスペクターでは、ある状態、またはポリシーマッピングの現在、AIがどのような行動を取るかを包括的に表示します。この情報をもとに、次のトレーニングの反復において、特定の改善点を設計し、ターゲットにすることができます。

シミュレーションモード

トレーニングは重要な準備のひとつですが、他のAIと戦うダイナミズムにはかないません。そこで、シミュレーションモードを用意しました。

シミュレーションモードでは、プレイヤーは自分のファイターを、あらかじめ訓練されたさまざまなレベルのAIとテストすることができます。闘技場で戦う前に、ファイターの状態をリスクなくテストすることができます。

少林寺はシミュレーションモードの舞台です。

<aside> ⬅️ 戻る

</aside>

<aside> ➡️ 次のページ

</aside>