为何重要: Minecraft 听起来可能不像是支持高级 AI 研究的重要工具。毕竟,教机器玩一款十多年前发布的沙盒游戏有什么重要的呢?根据 OpenAI 最近的努力,训练有素的 Minecraft 机器人与 AI 进步的相关性比大多数人可能意识到的要大。
OpenAI 一直专注于造福人类的人工智能 (AI) 和机器学习进步。最近,该公司使用超过 70,000 小时的游戏视频成功训练了一个机器人来玩 Minecraft。成就远不止是一个玩游戏的机器人。它标志着使用观察和模仿的高级机器学习向前迈进了一大步。
OpenAI 的机器人是模仿学习(也称为“监督学习”)在行动中的一个很好的例子。与强化学习不同,学习代理在通过反复试验达到目标后获得奖励,模仿学习通过观察人类完成特定任务来训练神经网络执行特定任务。在这种情况下,OpenAI利用可用的游戏视频和教程来教他们的机器人执行复杂的游戏序列,一般玩家需要大约 24,000 个单独的动作才能完成。
模仿学习需要标记视频输入以提供动作的背景和观察到的结果。不幸的是,这种方法可能是高度劳动密集型的,导致可用数据集有限。可用数据集的短缺最终限制了智能体通过观察进行学习的能力。
OpenAI 的研究团队没有通过大量的手动数据标记练习,而是使用一种称为视频预训练(VPT) 的特定方法来显着增加可用标记视频的数量。研究人员最初捕获了 2,000 小时带注释的 Minecraft 游戏,并用它来训练代理将特定动作与特定屏幕结果相关联。然后使用生成的模型自动为 70,000 小时以前未标记的 Minecraft 内容自动生成标签,这些内容很容易在线获取,从而为 Minecraft 机器人提供更大的数据集来审查和模仿。