返回栏目
首页人工智能 • 正文

25分钟训练机器人学会6个动作,伯克利开发高效的机器人操纵框架

发布时间:  来源:河洛网

本文经AI新媒体量子位(公众号ID:QbitAI )授权转载,转载请联系来源。

25分钟训练机器人学会6个动作,伯克利开发高效的机器人操纵框架

这个机器人手臂完成了充分、握持、移动、推、点、打开6个动作。

而且动作熟练,没有错误。

更意外的是,训练这个机器人臂只花了25分钟。

即使有人打扰,它也能成功捕捉动作。

能抓住从来没有见过的物体的形状。

这是来自加利福尼亚大学伯克利分校的新研究& mdash & mdash; 高效的机械操作框架frameworkforefficientroboticmanipulation ( FERM )是专用于机器人手臂高效操作的算法训练。

为什么FERM比其他方法更有效率? 现在很多机器人训练的RL算法效率不高。

用稀疏奖励的方法训练Dota5游戏的人机操作,达到人类玩家的高手水平,需要180年的游戏时间。

训练机器人手臂的手势需要成千万的模拟学习样本和两周的训练时间。

Sim2Real和模拟学习两种方法有点好。 Sim2Real需要接受模拟训练,并将训练结果适用于现实事例。

模拟学习需要通过一系列专业的训练演示案例和监督学习来得到最后的训练策略,实验结果很大程度上取决于输入演示案例的质量。

FERM的优点是不通过模拟训练转换为现实,不强烈依赖于输入的演示案例的质量。

基于非监视的表现学习和数据扩展技术,使用了pixel-based RL。

因此,10个Demo,25分钟的训练时间内,可以让机器人学习6个动作。

FERM具体怎么训练? FERM采用了基于像素的强化学习( pixel-based RL )方法。

具体地说,首先收集演示数据的一部分,将这些数据“ 播放缓冲器” “是的”。

然后,结合观察结果和对比损失量,对编码器进行预备训练。

然后编码器和“ 播放缓冲器” 使用一条线下的数据强化RL算法,训练RL代理。

论文总结了FERM的主要优点:

1、效率: FERM可以学习六种不同操作任务的最佳策略,在15-50分钟的训练时间内完成各任务。

2、简单统一的框架:框架结合现有的构成要素,将未被监视的预训练和在线RL和数据扩展到单一的高效框架。

3、通常的轻量设定:实施需要一个机器人、一个GPU、两个照相机、一些演示、稀疏奖励函数等。

具体的实验结果怎么样?

实验结果表明该实验用像素观察的方法执行了一系列任务。 下图的各栏显示了初始、中间、结果三种状态。 稀疏的报酬只有在机器人完成任务时才能得到。

这个训练算法可以说是高效的。 完成时间如下图表所示,30分钟左右可以让机器人学习操作任务。 简单的“ 足够” ( Reach )动作只需要3分钟。

实验结果表明,不需要很多Demo和大量设备,第一次完成任务的平均时间为11分钟,25分钟内可以训练6个机器动作。

所以研究者骄傲地说:

“ 众所周知,FERM是在不到1小时内采用来自不同群体的稀疏奖励方法的第一个机器操作任务。 ”

根据相关报告,今后10年制造业将需要460万个岗位。 很多制造商也转向了自动生产,机械自动化占了越来越高的比例。 像FERM这样的高效训练框架可以说是制造业的福音。

【编辑推荐】

    相关文章Related

    返回栏目>>

    河洛网首页

    Copyright © 2019 河洛网 版权所有 dahuimr@163.com