设为首页收藏本站 关注微博 关注微信

全球新闻在线

全球新闻在线 首页 科技新闻 技术解析 查看内容

玩躲猫猫游戏 AI学会攻防术

2021-5-19 16:40| 发布者: wdb| 查看: 43| 评论: 0|原作者: [db:作者]|来自: [db:来源]

摘要: 玩躲猫猫游戏 AI学会攻防术,更多国内科技资讯关注我们。

虽然机器学习在诸如围棋和Dota 2等繁杂游戏中取得了明显进步,但在这点范畴掌握的技巧其实不必定能推广到真正情景中实质利用。越来越多的探讨人士正好寻求构建一个机器智能,使其举止、学习和进化更像人类。

总部位于旧金山的OpenAI企业近日发表的一篇新论文提议,在孩童的“躲猫猫”游戏中训练模子,并在数以千万计的竞赛中使他们相互对抗,可导致模子自动进行出相似人类的举止,从而提升智力并改进延续行动的功能。

为何抉择躲猫猫?

该论文的第一作者、OpenAI探讨员博文·贝克以为,躲猫猫被选为一种有趣的起点,最重要的是由于其准则很容易。全部游戏中的代理(Agent,也称智能体,指能自助运动的软件或硬件实体)都被模拟为球形对象,可执行3种类别的操作:导航、抓住并搬动物体、锁定对象,且只能由该代理的队友解锁。

探讨人士在模拟的、物理接地的环境中放置了1—3个“躲藏者”和1—3个“寻觅者”,房间的边界是静态墙。环境中还包括不同大小的可搬动箱子和可搬动坡道。

探讨人士运用强化学习来训练游戏代理,并遵循容易的躲猫猫准则:隐藏者成功躲过寻觅者的追逐,或者寻觅者成功寻到躲藏者。

AI如何玩躲猫猫?

在通过数亿次的游戏后,AI代理经验了几个阶段的战略进行进程。

在初始阶段,躲藏者(蓝色)和寻觅者(红色)经过在体积中搬动而不操纵全部物体,制订了十分粗糙的躲避和追逐战略。

在经验2500万个回合后,游戏变得愈加繁杂。躲藏者学会了搬动和锁定在环境中的箱子和路障,以在本人四周构建堡垒,这样寻觅者就永远见不到他们了。不但如许,它们还制订了协调策略,比如相互传导物体,以加速建设堡垒的流程。

然则,在游戏发展了7500万回合以后,寻觅者发觉了一种反战略。它们学会了在躲藏者的要塞旁边搬动一种坡道,并用它来爬过墙壁。

作为回应,躲藏者学会了将坡道迁入它们的房间,因而寻觅者没有办法用它来越过墙壁。

随着环境变得越来越繁杂,躲藏者学会了运用狭长箱子建设更强盛的“堡垒”。尽管OpenAI以为这将是终归的战略,但在游戏发展到3.8亿回合时,寻觅者再一次成功反击,找出一个方法来跳到一种盒子上并应用能源在它上面“冲浪”,越过墙壁映入堡垒。

在最终阶段,躲藏者学会在建设堡垒此前锁定全部箱子,以防止“箱子冲浪”。

探讨人士将这点不同战略的演变称为“来源多智能体自动课程的紧急技巧进展”。“自动课程”这一术语是本年由DeepMind缔造的,适用于若干代理渐渐缔造新任务以在特定环境中相互挑战。OpenAI的探讨人士以为,这种进程在当然抉择方面具备类似之处。

这项探讨为啥很要紧?

基于躲猫猫相对容易的指标,经过竞争性自咱游戏训练的若干代理学会了运用用具,并采纳人类相干技巧来获胜。OpenAI以为,这为未来的智能代理开发和部署提供了一种有前景的探讨方向。OpenAI正好开源其代码和环境,以勉励在该范畴进一步探讨。

OpenAI的终归指标是建立能够在一种通用体系中执行多项任务的人力通用智能(AGI)。尽管可能会有不同的指标,但OpenAI正好鼎力投资由大范围计算能力实现的强化学习探讨。OpenAI最近与微软签定了一份价格10亿美元的为期10年的计算协议。

躲猫猫游戏探讨也激起了OpenAI,由于随着环境繁杂性的增添,游戏中的代理不停地经过新战略自咱适应新的挑战。贝克显示:“假如扩展像这样的过程,并将其放入更繁杂的环境中,那末你可能会获得充足繁杂的代理,以便为咱们解决实质任务。”

挑战在哪里?

游戏代理有时会体现出令人惊讶的举止。比如,躲藏者试图十足逃离游戏地域,直到探讨人士对此施加处罚。

其它挑战可能归因于模拟环境设置中的物理缺陷。比如,躲藏者理解到,假如它们在拐角处向墙壁推进斜坡,斜坡将源于某种原因穿过墙壁接下来消失。这类“作弊”讲明了算法的平安性如何在机器学习中发挥要害效用。探讨人士说:“在它产生此前,你永远不会晓得。这种体系总是存留缺陷。咱们所做的根本上是观看,以便咱们可行见到这类奇怪的事宜产生,接下来试着修缮物理缺陷。”

(科技日报纽约9月17日电)

来自:科技日报

作者:冯卫东

编辑:陈晨