当前火爆的障碍跑,连机器人都来凑热闹了!

2019-03-27 10:24:48 Acc

       谷歌的人工智能子公司 DeepMind 最近连续发布了三篇论文,探讨了如何使用「强化学习」的方法来教导 AI,使它能在不熟悉或复杂的环境里自主导航运动路线。这是一项在虚拟世界中对人工智能进行的测试,运动智能(motor intelligence)学习如何控制和协调柔韧的身体在各种复杂环境中解决任务,涵括了计算机动画(Computer animation)和生物力学(Biomechanics)等多个领域的知识。有一天将这个这项程序加载到实体机器人身上,同样可以驱动机器人做出相同的反应

       棒状机器人会根据特殊地形做出不同的行为,包括跳跃、转向、蹲伏等智能肢体动作。而这些动作并不需要为其编写特定的计算机程序,在棒状机器人的身体与环境交互的过程中,逐渐建立最佳的行为模式。最终机器人会在在没有特殊指示的情况下发展出了复杂技能,这一方法可被应用于训练系统中多个不同的仿真身体。而 DeepMind 的三篇论文,也分别从三个角度探寻了 AI 如何产生灵活和自然行为的方法,它们将来有望于应用在实体机器人身上进行训练

强化学习:如何在丰富的自然环境中产生运动行为?

       此前 DeepMind 的研究,可能会更多集中在算法层面的问题,例如如何模拟人类大脑的思考活动,如何进行决策与选择,最具代表性的研究成果就是 AlphaGo。但是如何教会一个 AI 运动行为呢?例如一次跳跃、翻转与奔跑。首先,我们要解决的是该如何精准的描述一个运动行为,在第一篇论文『Emergence of Locomotion Behaviours in Rich Environments』中,探讨了如何通过一个策略梯度清华学习的全新可拓展变体,训练各种不同的模拟人体在不同的地形中的运动,例如跳跃、转向与蹲伏。

对抗模仿学习:如何从动作捕捉中学习人类的行动?

       当智能体学会了基础性的运动,就要开始学习一些特性复杂的技能。例如:行走的步态、从地上起身、跑步与转弯绕过障碍物等。在第二篇论文『Learning human behaviors from motion capture by adversarial imitation』中 ,DeepMind 则展示了一套可通过运动数据捕捉建立多个子技能策略网络的方法,并使用生成对抗模仿学习训练通用神经网络,从而根据有限的示例生成与人类相似的动作模式。

多行为的鲁棒性模仿:如何在多种行为模式中产生切换?

       当智能体习得各种运动方案后,那么该如何处理两种不同行为模式之间的切换过程,例如从步行变为跑步,使得其过渡自然呢?在第三篇论文『Robust Imitation of Diverse Behaviors』中,则展示了一种当前最优生成的神经网络架构,使得智能体能够学习不同行为之间的关系,并模拟它们产生具体的动作。DeepMind 研究团队指出,其未来的工作将主要集中在指导以上方案【在更为复杂的情况下协调做出更为广泛的动作范围】。事实上,单纯的模拟人类行为并不是 DeepMind 团队的最终目的,它们只是想用创造性的解决方案来克服现有的 AI 机器人运动障碍,他们认为机器人甚至可以摆脱人类的运动模式,创造出新的运动行为。只是大多数时候,研究团队认为能提供的最有效的办法,依然不是最自然的。