比方说,你想训练一个机器人,让它知道如何使用工具,然后可以快速学会用锤子、扳手和螺丝刀修理你的房子。要做到这一点,您需要大量的数据来演示工具的使用
现有的机器人数据集在形式上差异很大—例如,一些包括彩色图像,而另一些则由触觉印记组成。数据也可以在不同的领域收集,如模拟或人类演示。每个数据集都可以捕获一个独特的任务和环境
很难将来自这么多来源的数据有效地合并到一个机器学习模型中,所以许多方法只使用一种类型的数据来训练机器人。但是,以这种方式训练的机器人,只有相对少量的特定任务数据,往往无法在陌生的环境中执行新任务
为了训练更好的多用途机器人,麻省理工学院的研究人员开发了一种技术,使用一种称为扩散模型的生成人工智能,将跨领域、模式和任务的多个数据源结合起来
他们训练一个单独的扩散模型来学习使用一个特定数据集完成一项任务的策略或策略。然后,他们将扩散模型学习到的策略组合成一个通用策略,使机器人能够在各种设置中执行多个任务
在模拟和真实世界的实验中,这种训练方法使机器人能够执行多个工具使用任务,并适应训练中没有看到的新任务。与基线技术相比,这种被称为策略组合(PoCo)的方法使任务性能提高了20%
“解决机器人数据集中的异构性就像一个鸡蛋问题。如果我们想使用大量数据来训练通用机器人策略,那么我们首先需要可部署的机器人来获得所有这些数据。我认为,利用所有可用的异构数据,就像研究人员对ChatGPT所做的那样,是机器人领域的重要一步,”电气工程和计算机科学(EECS)研究生、arXiv预印本服务器上一篇关于PoCo的论文的主要作者王立瑞说
王的合著者包括机械工程研究生赵;杜一伦,EECS研究生;Edward Adelson,脑与认知科学系视觉科学John and Dorothy Wilson教授,计算机科学与人工智能实验室(CSAIL)成员;资深作者Russ Tedrake,丰田EECS、航空航天和机械工程教授,CSAIL成员
这项研究将于7月15日在荷兰代尔夫特举行的机器人学:科学与系统会议上发表–19.
组合不同的数据集
机器人策略是一种机器学习模型,它接受输入并使用它们来执行操作。思考政策的一种方式是将其作为一种战略。在机器人手臂的情况下,这种策略可能是一条轨迹,或者一系列移动手臂的姿势,使其拿起锤子并用锤子敲击钉子
用于学习机器人策略的数据集通常很小,专注于一个特定的任务和环境,比如将物品打包到仓库中的箱子中
“每个机器人仓库都在生成数TB的数据,但它只属于处理这些包的特定机器人安装。如果你想使用所有这些数据来训练一台通用机器,这是不理想的,”王说
麻省理工学院的研究人员开发了一种技术,可以获取一系列较小的数据集,比如从许多机器人仓库收集的数据集、从每个数据集学习单独的策略,并以使机器人能够概括到许多任务的方式组合这些策略
它们使用一种称为扩散模型的生成人工智能模型来表示每种政策。通常用于图像生成的扩散模型通过迭代地细化其输出,学习创建与训练数据集中的样本相似的新数据样本
但研究人员并没有教扩散模型生成图像,而是教它为机器人生成轨迹。他们通过向训练数据集中的轨迹添加噪声来实现这一点。扩散模型逐渐去除噪声,并将其输出细化为轨迹
这项技术被称为扩散政策,之前由麻省理工学院、哥伦比亚大学和丰田研究所的研究人员引入。PoCo建立在这项扩散政策工作的基础上。
该团队使用不同类型的数据集训练每个扩散模型,例如一个具有人类视频演示的数据集,另一个从机械臂的远程操作中收集的数据集
然后,研究人员对所有扩散模型学习到的单个策略进行加权组合,迭代地细化输出,使组合策略满足每个单个策略的目标
大于其各部分的总和
王说:“这种方法的好处之一是,我们可以将政策结合起来,两全其美。例如,根据真实世界数据训练的政策可能能够实现更灵活的操作,而根据模拟训练的政策则可能能够实现更多的通用性。”
因为策略是单独训练的,所以可以混合和匹配扩散策略,以获得特定任务的更好结果。用户还可以通过使用该数据集训练额外的扩散策略,而不是从头开始整个过程,在新的模式或领域中添加数据
研究人员在模拟和真实的机械臂上测试了PoCo,这些机械臂执行各种工具任务,例如使用锤子敲击钉子和用抹刀翻转物体。与基线方法相比,PoCo使任务性能提高了20%
未来,研究人员希望将这项技术应用于长期任务,即机器人拿起一种工具,使用它,然后切换到另一种工具。他们还希望结合更大的机器人数据集来提高性能
“我们需要所有三种数据才能成功地实现机器人技术:互联网数据、模拟数据和真实机器人数据。如何有效地将它们结合起来将是一个耗资巨大的问题。PoCo是在正确的轨道上迈出的坚实一步,”NVIDIA高级研究科学家、人工智能代理倡议负责人Jim Fan表示,他没有参与这项工作
"We will need all three kinds of data to succeed for robotics: internet data, simulation data, and real robot data. How to combine them effectively will be the million-dollar question. PoCo is a solid step on the right track," says Jim Fan, senior research scientist at NVIDIA and leader of the AI Agents Initiative, who was not involved with this work.
想要了解更多关于脑机接口技术的内容,请关注脑机网,我们将定期发布最新的研究成果和应用案例,让您第一时间了解脑机接口技术的最新进展。