-官方认证诚信至上 | 工业机器人及工控系统领军企业
NVIDIA神经网络创新研究重塑机器人学习
发布时间:
2025-11-05 07:02:03
来源:
浏览量:236
【导语】当下,机器人在现实世界任务中,常因不可预测性、操作灵活性及细微交互需求而受限。机器人学习成为连接实验室与现实应用的关键。本期NVIDIA机器人研究与开发摘要 (R²D²)聚焦三项突破性神经网络研究:NeRD增强仿真并支持真实环境微调;Dexplore借助动作捕捉数据助机器人实现灵巧操作;VT-Refine融合视觉触觉,以创新训练流程让机器人掌握双手协同装配。
目前,机器人在受控的环境中能够有出色的表现,但在面对现实世界任务时,仍难以应对其中的不可预测性、操作灵活性和细微的交互需求,例如组装精密组件或是以接近人类(lèi)的(de)精(jīng)度(dù)操(cāo)控(kòng)日(rì)常(cháng)物(wù)体(tǐ)。
机(jī)器(qì)人(rén)学(xué)习(xí)已(yǐ)成(chéng)为(wèi)弥(mí)合(hé)实(shí)验(yàn)室(shì)演(yǎn)示(shì)与(yǔ)现(xiàn)实(shí)世(shì)界(jiè)部(bù)署(shǔ)之(zhī)间(jiān)差(chà)距(jù)的(de)关键推(tuī)动(dòng)力(lì)。
本(běn)期(qī)NVIDIA 机(jī)器(qì)人研究与开发摘要 (R²D²)将探讨 NVIDIA 研究中心在 CoRL 2025 上展示的三项突破性的神经网络创新研究,这些研究正在重塑机器人的学习与适应方式:
NeRD(神经机器人动力学模型):通过具备跨任务泛化能力的学习型动力学模型增强仿真效果,同时支持在真实环境中对模型微调。
Dexplore:将动作捕捉演示数据作为自适应引导信息,帮助机器人实现人类级别的灵巧操作能力。
VT-Refine:融合视觉感知与触觉传感技术,通过创新的“真实—仿真—真实”(real-to-sim-to-real)训练流程,使机器人熟练掌握高精度双手协同装配任务。
通过神经仿真推动机器人学习:现代机器人普遍具有高自由度和复杂的机械结构,传统仿真器难以准确捕捉其复杂性。神经模型能够高效预测复杂的动力学行为,并适应现实世界的数据,有助于应对这一挑战。
NeRD 是经过学习的动力学模型,能够预测特定机器人(或称铰接刚体系统)在接触约束下的未来状态。该模型能够替代分析仿真器中的低层动力学与接触求解器,从而构建一种混合仿真预测框架。NeRD 可轻松集成到现有的铰接刚体仿真框架中,可作为Newton等物理引擎的无缝接入后端。

NeRD 可以高效预测复杂的动力学行为并适应真实世界的数据
从人类运动中学习灵巧技能:机器人的手部通常自由度较低且驱动、感知与控制能力有限,这使得机器人难以有效地从人类操作中学习灵巧的操作技能。
手与物体动作捕捉(MoCap)存储库提供了丰富的接触密集操作的人类演示,但它们难以直接用于机器人的策略学习。
本研究提出了参考范围探索(RSE),一种统一的单循环优化方法。它融合了重定向与跟踪功能,能够直接利用(yòng)运(yùn)动(dòng)捕(bǔ)捉(zhuō)(MoCap)数(shù)据(jù)来(lái)训(xun)练(liàn)可(kě)扩(kuò)展(zhǎn)的(de)机(jī)器(qì)人(rén)控(kòng)制(zhì)策(cè)略(è)。这(zhè)种(zhǒng)做(zuò)法(fǎ)不(bù)仅(jǐn)保(bǎo)留(liú)了(le)演(yǎn)示(shì)的(de)意(yì)图(tú),并(bìng)使(shǐ)机(jī)器(qì)人(rén)能(néng)够(gòu)自(zì)主探(tàn)索(suǒ)与(yǔ)其(qí)自身形态相契合的动作。

从人类演示中学习灵巧操作,首先使用RSE训练一个基于状态的模仿控制策略,进而探索机器人专属的操作策略
视觉与触觉相结合,实现双手协同装配:基于扩散策略的行为克隆方法面临两大局限,即在现实世界中,演示数据有限,且数据采集接口的触觉反馈也较为有限。
为解决这一数据难题,VT-Refine 开发了一种创新的“真实—仿真—真实”框架。该框架融合了仿真、视觉与触觉信息,可有效应对双手协同装配任务中的挑战。

VT-Refine 是一种创新的视觉触觉策略学习框架,适用于高精确、接触密集型的双手协同装配任务