Google游戏AI研究人员,以提高增强的学习能力

强化学习(强化学习) - 机器学习的子场 - 与AI培训技术使用“奖励”相关,以专门针对目标目标,以推广软件策略。换句话说,这是AI尝试不同动作的过程,了解每个反馈是否会带来更好的结果,然后加强触发的动作。使用,即在多个迭代中自动重做和修改其算法可获得最佳结果。近年来,全面学习被利用以建模社会规则的影响,以创建极好的游戏模型AI或自助编程机器人。关于软件的不愉快事件后的主动操作。

  1. Winnow使用计算机视觉来帮助减少食物处理中的废物

尽管具有很高的灵活性,但可以在许多不同的模型和目的中应用,但加强学习技术包含不幸的遗漏:效果较差。为了通过增强的学习技术培训AI模型,它需要在模拟或现实世界中进行许多不同的交互作用,比人们需要学习某个任务时要多得多。为了克服这个问题,尤其是在视频游戏领域,Google的人工智能研究人员最近提出了一种使用一种称为模拟策略学习的新算法(缩写为简单),该算法使用简单的视频游戏模型来学习并改善质量政策,以选择加强学习技术。

研究人员在一篇名为“基于模型的强化学习”的新印刷文章中描述了这种算法(大致翻译:学习根据Atari的模型增强),同时在带有开源的文档中。

“在高水平上,研究人员的开发简单算法的想法是在建立游戏特征和特征的模型之间进行交替,并在游戏模拟环境中使用该模型来优化策略(具有增强的学习技术)(具有增强的学习技术)。该算法背后的基本原理已经根据最近的模型建立并用于各种密集学习方法。”

  1. 欣赏Nvidia的新AI应用程序:将MS油漆式涂鸦变成艺术的“杰作”

正如两位研究人员所解释的那样,训练AI系统玩游戏需要预测目标游戏的下一个帧结构,这是由一系列帧和命令给出的。组合(例如“左”,“内部”,“右”,“向前”,“向后”)。此外,研究人员还指出,成功的模型可以创建可用于培训游戏代理程序策略的“轨道”,这将根据游戏中的复杂计算来减少对需求。

简单的算法就是这样做的。它需要4帧作为输入数据来预测下一个框架和奖励,并且经过全面训练后,该算法将产生“推出” - 动作序列,观察和结果的顺序 - 用于改善策略(2位专家Kaiser和Erhan指出,简单的算法仅使用中型长度来最小化预测性错误)。

在相当于2个小时的游戏(100,000个互动)的漫长测试中,具有Simple调整后政策的代理商计划(代理商)在两个测试游戏(Pong和Freeway)中获得了最高分数,同时创建了未来最多可容纳50个步骤的几乎完美的预测。

  1. 91%的技术经理认为AI将成为下一个技术革命的中心

有时,两名研究人员还试图在游戏中收集小但高度相关的细节,从而导致失败。 Kaiser和Erhan承认,该算法仍然与标准强化学习方法的性能并不一致。但是,简单能够提供两倍的培训,团队希望未来的研究能够有助于改善该算法的性能。

'基于模型的密集学习方法的主要目标是在相互作用看起来复杂,缓慢或人类标记要求的环境中,例如在许多机器人任务中。 在这样的环境中,模拟器将使我们能够更好地了解代理程序的环境,从那里可以导致新,更好,更快的做事方式。学习多任务增强'。

可能有兴趣