沃卡惠移动端logo

沃卡惠  行业资讯

资讯详情

向机器人教授具有神经辐射场(NeRF)的工具

2022-10-06 14:36:414636

密歇根大学的一项新研究通过创建神经辐射场(NeRF) 对象来展示这些对象的移动方式,从而为机器人提供了一种了解工具机制和其他现实世界铰接对象机制的方法,从而可能允许机器人进行交互与它们一起使用,无需繁琐的专用预配置。

通过利用工具(或任何具有合适参考的对象)内部运动的已知源参考,NARF22 可以合成工具及其移动范围和操作类型的逼真近似。

需要做的不仅仅是避开行人或执行精心预编程的例程(对于这些不可重复使用的数据集可能已被标记并花费一定费用进行训练)的机器人,如果它们要使用相同的材​​料和我们其他人必须应对的对象。

迄今为止,为机器人系统注入这种多功能性存在许多障碍。其中包括缺乏适用的数据集,其中许多数据集的对象数量非常有限;生成逼真的、基于网格的 3D 模型所涉及的绝对成本,这些模型可以帮助机器人在现实世界的环境中学习工具;以及这些数据集的非真实感质量,实际上可能适合挑战,导致物体看起来与机器人在周围世界中感知的脱节,并训练它寻找永远不会出现的卡通物体现实。

为了解决这个问题,密歇根研究人员的论文标题为NARF22:用于配置感知渲染的神经铰接辐射场,他们开发了一个两阶段的管道,用于生成具有“真实世界”外观的基于 NeRF 的铰接对象,其中包含任何特定铰接对象的运动和随之而来的限制。

虽然看起来更复杂,但 NARF22 管道的基本两个阶段涉及渲染运动工具的静态部分,然后将这些元素合成到第二个数据集中,该数据集被告知这些部分相对于彼此具有的运动参数。来源:https://arxiv.org/pdf/2210.01166.pdf

该系统被称为神经铰接辐射场- 或 NARF22,以将其与另一个类似名称的项目区分开来。

NARF22

确定一个未知对象是否有潜在的关节连接需要几乎不可思议的人类先验知识。例如,如果您以前从未见过封闭的抽屉,它可能看起来是任何其他类型的装饰镶板——直到您真正打开了一个,您才将“抽屉”内化为具有单一运动轴的铰接对象(向前和向后)。

因此,NARF22 并非旨在作为一个探索性系统来拾取物品并查看它们是否具有可操作的移动部件 - 几乎是猿类行为,这将带来许多潜在的灾难性场景。相反,该框架以通用机器人描述格式(URDF) 中可用的知识为基础——这是一种基于 XML 的开源格式,广泛适用并适用于该任务。URDF 文件将包含对象中可用的运动参数,以及对象部分的描述和其他标记方面。

在传统的管道中,有必要从本质上描述对象的关节能力,并标记相关的关节值。这不是一项廉价或易于扩展的任务。相反,NaRF22 工作流程在将每个静态组件“组装”成基于 NeRF 的关节表示之前渲染对象的各个组件,并了解 URDF 提供的运动参数。

 

在该过程的第二阶段,创建一个包含所有部分的全新渲染器。尽管在早期阶段简单地连接各个部分并跳过后续步骤可能更容易,但研究人员观察到最终模型(在 AMD 5600X CPU 下的 NVIDIA RTX 3080 GPU 上训练)在反向传播期间具有较低的计算需求而不是这样突然和过早的组装。

此外,第二阶段模型的运行速度是串联的“蛮力”装配速度的两倍,任何可能需要利用模型静态部分信息的辅助应用程序都不需要自己访问 URDF 信息,因为这已经被合并到最后阶段的渲染器中。

数据和实验

研究人员进行了多项实验来测试 NARF22:一项评估每个对象的配置和姿势的定性渲染;将渲染结果与现实世界机器人看到的类似观点进行比较的定量测试;以及使用 NARF22 执行基于梯度的优化的配置估计和 6 DOF(景深)细化挑战的演示。

训练数据取自当前工作的几位作者的早期论文的Progress Tools数据集。Progress Tools 包含大约 6000 个 640×480 分辨率的 RGB-D(即包括深度信息,对机器人视觉至关重要)图像。使用的场景包括八个手动工具,分为它们的组成部分,包括网格模型和对象运动特性的信息(即,它们被设计为移动的方式,以及移动的参数)。

Progress Tools 数据集具有四个明确的工具。上面的图像是来自 NARF22 的基于 NeRF 的渲染。

对于这个实验,最终的可配置模型仅使用线工钳、长嘴钳和夹具(见上图)进行了训练。训练数据包含夹具的单一配置,以及每个钳子的配置。

NARF22 的实现基于FastNeRF,修改了输入参数以专注于工具的连接和空间编码姿势。FastNeRF 使用分解多层感知器 (MLP) 与体素采样机制配对(体素本质上是像素,但具有完整的 3D 坐标,因此它们可以在三维空间中运行)。

对于定性测试,研究人员观察到夹子有几个被遮挡的部分(即中央脊椎,不能通过观察对象来知道或猜测,而只能通过与其交互来了解或猜测,并且系统很难创建这个“未知”几何。

工具的定性渲染。

工具的定性渲染。

相比之下,钳子能够很好地推广到新颖的配置(即,它们在 URDF 参数内的部分的扩展和移动,但在模型的训练材料中没有明确解决。

然而,研究人员观察到,钳子的标签错误导致工具非常详细的提示的渲染质量下降,对渲染产生负面影响——这个问题与对计算机中的标签物流、预算和准确性的更广泛关注有关视觉研究部门,而不是 NARF22 管道中的任何程序缺陷。

渲染精度测试的结果。

渲染精度测试的结果。

对于配置估计测试,研究人员从初始“刚性”姿态执行姿态改进和配置估计,避免了 FastNeRF 本身使用的任何缓存或其他加速解决方法。

然后,他们从 Progress Tools 的测试集中(在训练期间被搁置)训练了 17 个有序的场景,在 Adam 优化器下运行了 150 次梯度下降优化迭代。据研究人员称,该程序“非常好”地恢复了配置估计。

配置估计测试的结果

配置估计测试的结果。

2022年10月5日首次发布。