当你为游戏竞赛购买一个新的NFT时,构成其核心的神经网络参数是随机产生的。这意味着神经网络最初将执行随机行动,因为该网络还没有发展出任何技能。
为了准备战斗,你必须训练人工智能,使其获得技能或学习有效的战斗政策。
训练是改变神经网络中的参数的过程,使人工智能在特定情况下 - 状态 - 以特定的方式 - 行动。在不同状态下学习到的行动的结果组合被称为政策。
为了帮助你的人工智能掌握获胜所需的技能,我们提供了一个名为模仿学习的训练环境。
<aside> ⚖️ 一切都关于平衡 训练你的AI有一个平衡的政策是很重要的。
为了说明问题,想象一下你教的唯一动作是打拳。人工智能将学会打拳,不管它处于什么情况下。如果你问我们,这不是一个非常有效的策略...
一个具有平衡政策的人工智能被称为是一个**"普遍意义上的"**好的人工智能。这是训练的最终目的。
</aside>
想象一下,你是一个师父、老师或教练,而人工智能是你的徒弟。你和你的人工智能比试,它就会学习模仿你在特定情况下的动作。
这就是**模仿学习(IL)**的前提。
IL是一个迭代循环 🔁 ,有四个步骤。
🚰 数据采集 - ****这是IL过程的开始,你向你的AI展示行动。在这个模块中,你在玩游戏--而不是你的NFT! 你实际上是在为人工智能创建一个行动列表(在观察到的状态下),让它复制和学习。在机器学习方面,你正在创建人工智能将训练的数据集。记住,人工智能只能在你为它创造的数据上进行训练,所以故意创造有用的数据是非常重要的,需要技巧来实现。
💻 配置 - 一旦你创建了数据,你可以:
➡️ 定义训练强度。
➡️ 精确指出你希望人工智能集中训练的特征。
🏋️ 训练 - ****在收集和配置数据后,你能够训练你的人工智能以更新其参数。你的人工智能将进化并适应新的政策。
🔍 检查 - ****你的模型现在已经更新了,但你是否真的知道它学到了什么,以及它是否变得更好?答案是肯定的! 通过 AI检查器,你能够看到AI的 "大脑内部"。检查员提供了一个全面的视图,说明人工智能在某种状态下会采取什么行动,或者说,政策映射的当前视图。掌握了这些信息,你就可以为下一次的训练迭代设计并瞄准具体的改进领域。
虽然训练是准备工作的一个关键部分,但它不能替代与另一个人工智能战斗的活力。这就是为什么我们提供一个模拟模式。
在模拟模式中,玩家可以测试他们的战士与不同级别的预先训练过的人工智能对抗。这是一种无风险的方式,可以在竞技场战斗之前测试战士的准备情况。
少林寺是模拟模式的场景
<aside> ⬅️ 上一页
</aside>
<aside> ➡️ 下一页
</aside>