-官方认证诚信至上 | 工业机器人及工控系统领军企业

NEWS

新闻资讯

首页

RDK × 腿臂机器人:这只 “机械汪” 竟会说人话、走花路！

发布时间：

2025-07-10 03:02:11

来源：

浏览量：353

【导语】本项目聚焦于腿臂机器人在多模态环境感知、自然语言交互和自主行为控制方面的技术突破。通过在RDK X3平台上开发AI大模型算法，我们提出了一种创新解决方案，旨在全面提升腿臂机器人的综合性能。项目成果不仅强化了机器人的多模态感知能力，实现了对复杂作业环境的精准理解，还显著提升了人机交互的效率和个性化体验。此外，自主行为控制方面的创新设计，使机器人能够高效执行自然语言指令，并在多样化任务场景中展现出卓越的自主性和适应性。本项目由赛博汪汪团队倾力打造，为智能机器人技术的发展开辟了新方向。

开源：Github：https://github.com/Hello-XSJ/RDK\_vlm\_demo.git-
本项目聚焦腿臂机器人在多模态环境感知、自然语言交互和自主行为控制方面的技术瓶颈，基于RDK X3平台进行AI大模型算法开发，提出了一种融合AI大模型的创新性解决方案，提升腿臂机器人的综合性能。-
项目首先强化了机器人的多模态感知能力，利用雷达、摄像头和语音传感器数据，通过AI大模型进行深度信息融合与智能分析，实现对作业环境的全面理解与精准感知。在自然语言交互方面，AI大模型的语义解析与逻辑推理能力显著提升了人机交互的效率，赋予机器人情感交互的能力，提供了个性化的交互体验。-
自主行为控制方面，设计了基于AI大模型的智能行为调度策略，将自然语言指令转化为可执行的语义信息，并通过任务子函数实现行为规划与动态调整。系统还集成了高层反馈机制，确保任务规划的准确性和执行效率。-
本项目展示了腿臂机器人在自然语言交互下进行多模式作业和多场景导航的能力，提升了机器人的自主性和适应性，为其在多样化任务场景中的应用提供了广阔前景，也为智能机器人技术的发展提供了新思路和方向——赛博汪汪团队-

791×352 0 Bytes

一、方案论证与设计-
1.1 研究目标-
当前，四足机器人在自然语言交互、自主行为控制及功能多样性方面存在显著局限。本研究旨在融合人工智能大模型技术，重点突破多模态环境感知与自主导航、自然语言交互和自主行为控制三大关键领域。-
在多模感(gǎn)知(zhī)与(yǔ)指(zhǐ)令(lìng)式(shì)导(dǎo)航(háng)上，通过集成雷达、相机、语音等多源传感器，利用 AI 大模型融合分析感知数据，使机器人能精准感知环境动态变化，实现复杂环境下的自主导航与任务执行。-
自然交互层面，借助 AI 大模型强大的语义解析和逻辑推理能力，实现机器人对自然语言的理解与生成，不仅能执行指令，还能识别情感并提供个性化交互体验，通过语音、姿态等多方式互动提升用户满意度。-
自主行为控制方面，AI 大模型深度融合自然语言语义信息与传感器图像信息，基于指令分析与环境识别，生成任务指令和控制决策，无需复杂算法即可显著提升机器人自主行动能力。-
1.2系统方案设计-
为全面提升四足机器人性能，设计包含四部分的系统方案：基于动力学模型的多模式运动控制、多模态环境感知与指令式导航、基于 AI 大模型的智能行为调度、实验仿真与物理样机测试。-
1.21 基于动力学模型的四足机器人多模式运动控制-
基于动力学模型的多模式运动控制是四足机器人技术核心。通过构建动力学模型分析机器人力学特性，优化静态与特征参数获取最优控制参数，实现步态、姿态和速度的灵活调整。-
采用基于模型预测的全身运动控制策略，开发强鲁棒性控制器。该控制器处理本体传感器数据，经滤波降噪后，运用高频反馈与高维预测技术，实现站立、行走、跑跳等多种运动模式平滑切换，保障机器人执行指令时的稳定性。-
1.22 环境感知与指令式导航-
融合 AI 大模型的导航系统，使四足机器人具备复杂(zá)环(huán)境(jìng)理解与决策能力。通过深度学习结合大语言模型，利用感知网络编码环境状态，为导航提供精准信息。-
路径规划网络中的指令式导航规划器解析目标指令，借助最优轨迹优化器反向传播优化运动轨迹。以增强签名距离场为代价地图，结合差分器实现动态避障与路径调整，最终由运动控制器将规划轨迹转化为实际运动指令(lìng)。-
1.23 基(jī)于(yú) AI 大语言模型的智能行为调度-
基于 AI 大语言模型的智能行为调度方法，赋予机器人智能决策能力。在线调用大语言模型解析自然语言指令，转化为机器人可理解的语义指令，实现人机自然交互。-
基于语义指令进行子任务规划，结合高层反馈纠错机制保障任务准确性。在执行阶段，运动状态机与规划将高层指令转化为运动序列，运动控制器实时评估调整。遇错时底层反馈触发重新规划，同时通过自然语言处理持续优化机器(qì)人(rén)行(xíng)为(wèi) 。-
二(èr)、系(xì)统(tǒng)设(shè)计(jì)-
2.1 四(sì)足(zú)机(jī)器(qì)人硬件系统设计-
四足机器人运动控制由 Upboard 嵌入式 PC 主控制器实现，通过 PREMAP 补丁运行实时 linux 系统。其经 USB 口与 IMU 以 500Hz 频率通信采集姿态信息，通过 SBUS 与 AT9S 遥控器交互指令。关节执行器与控制器间采用 CAN 总线通信，利(lì)用(yòng)基(jī)于(yú) STM32f446 的(de)转(zhuǎn)接(jiē)板(bǎn)解(jiě)决(jué) Upboard 无(wú) CAN 接(jiē)口(kǒu)问(wèn)题(tí)，完(wán)成(chéng) SPI、TTL 与(yǔ) CAN 的(de)转(zhuǎn)换(huàn)。-
硬(yìng)件(jiàn)布(bù)局(jú)及(jí)总(zǒng)体(tǐ)框(kuāng)架(jià)中(zhōng)，感(gǎn)知(zhī)与(yǔ)语(yǔ)音(yīn)系(xì)统(tǒng)共(gòng)用(yòng) NUC 处(chù)理(lǐ)器(qì)，千兆交换机组建局域网，支持远程笔记本通过 Rviz 可视化界面监控操控。Ouster-64 雷达经网口连交换机，相机、音频设备分别通过 USB 和蓝牙接入 NUC，传感器数据在 NUC 处理后，经网口传输控制指令至运动控制器，驱动机器人执行动作。-
供电方面，配备两块锂电池。46.2V、30A 电池经隔稳压模块，输出 42V 供关节驱动器，5V 供运动控制器；25.2V 电池经稳压模块，输出 19.5V 为 NUC 供电，12V 为雷达供电，续航 1 小时。-
2.2 软件系统设计-
2.2.1 开发平台-
本文算法开发和实验平台均基于 Ubuntu 操作系统，四足机器人运动控制算法基于 C++开发，同时控制器上安装有 PREEMPT-RT 补丁，作为一个 Linux 内核的实时拓展补丁，可以提高系统对实时性要求的响应性，通过减小 Ubuntu 系统内核的抢占延迟，使其更适用于四足机器人这种对实时控制要求较高的平台。本文的感知算法和指令式导航算法基于 ROS 机器人开发系统并利用了可视化工具 Rviz，在窗口中直接显示语义分割结果和四足机器人规划的导航路线等信息，进一步丰富了实验过程的视觉呈现。-
2.2.2 通信子系统-
在通信系统设置上本文在通信方式的选择上根据不同阶段采用了不同策略，其中主要分为两种，语音识别算法是直接在线调用 AI 大语言模型，通过 WIFI 网络通信；在感知算法内部采用的是基于 ROS 的通信机制，而在与四足机器人进行通讯时，由于四足机器人控制器上并没有配置 ROS 开发系统，因而选择了一种轻量化的通讯框架：LCM 通讯。感(gǎn)知(zhī)模(mó)块(kuài)处(chù)理(lǐ)完(wán)的(de)信(xìn)息(xi)先(xiān)通(tōng)过(guò)在(zài)线(xiàn)调(diào)用(yòng) AI 大(dà)语(yǔ)言(yán)模(mó)型(xíng)进(jìn)行(xíng)信(xìn)息(xi)推(tuī)理(lǐ)，然(rán)后(hòu)通(tōng)过(guò) LCM 将(jiāng)图(tú)像(xiàng)信(xìn)息(xi)和(hé)导(dǎo)航(háng)指(zhǐ)令(lìng)消(xiāo)息(xi)传(chuán)递(dì)给(gěi)四(sì)足(zú)机(jī)器(qì)人(rén)运(yùn)动(dòng)控(kòng)制(zhì)器(qì)，实(shí)现(xiàn)四(sì)足(zú)机(jī)器(qì)人(rén)建(jiàn)图(tú) 以(yǐ)及(jí)导(dǎo)航(háng)功(gōng)能(néng)的(de)视(shì)线(xiàn)。-
2.2.3 软(ruǎn)件(jiàn)系(xì)统(tǒng)架(jià)构(gòu)-
本(běn)软(ruǎn)件(jiàn)系(xì)统(tǒng)架(jià)构(gòu)图(tú)展(zhǎn)示(shì)了(le)一(yī)个(gè)高(gāo)度(dù)集成(chéng)的(de)四(sì)足(zú) 机(jī)器(qì)人(rén)智(zhì)能(néng)交(jiāo)互(hù)和(hé)任(rèn)务(wu)规(guī)划(huà)执(zhí)行(xíng)流(liú)程(chéng)。系(xì)统(tǒng)通(tōng)过(guò)语(yǔ)音(yīn)文本(běn)识(shi)别(bié)和(hé)自(zì)然(rán)人(rén)机(jī)交(jiāo)互(hù)模(mó)块(kuài)，实(shí) 现(xiàn)与(yǔ)用(yòng)户(hù)的(de)高(gāo)效(xiào)沟(gōu)通(tōng)。利(lì)用(yòng) AI 大(dà)语(yǔ)言(yán)模(mó)型(xíng)进(jìn)行(xíng)语(yǔ)义(yì)解(jiě)析(xī)，将(jiāng)输(shū)入(rù)的(de)自(zì)然(rán)语(yǔ)言(yán)转(zhuǎn)化(huà)为(wèi)精(jīng) 确(què)的(de)语(yǔ)义(yì)指(zhǐ)令(lìng)。结(jié)合(hé)感(gǎn)知(zhī)网(wǎng)络(luò)和(hé)训(xun)练(liàn)参(cān)数(shù)优(yōu)化(huà)，系(xì)统(tǒng)能(néng)够(gòu)生(shēng)成(chéng)适(shì)应(yīng)环(huán)境(jìng)的(de)感(gǎn)知(zhī)信(xìn)息(xi)。任(rèn) 务(wu)规(guī)划(huà)和(hé)运(yùn)动(dòng)规(guī)划(huà)模(mó)块(kuài)通(tōng)过(guò)代(dài)价(jià)计(jì)算(suàn)和(hé)高(gāo)层(céng)反(fǎn)馈(kuì)，实(shí)现(xiàn)对(duì)机(jī)器(qì)人(rén)行(xíng)为(wèi)的(de)智(zhì)能(néng)规(guī)划(huà)和(hé)路径优(yōu)化(huà)。关键点(diǎn)路径和(hé)三(sān)次(cì)样(yàng)条(tiáo)曲(qū)线(xiàn)的(de)应(yīng)用(yòng)，确(què)保(bǎo)了(le)轨(guǐ)迹(jī)跟(gēn)踪(zōng)的(de)平(píng)滑(huá)性(xìng)和(hé)控(kòng)制(zhì)指(zhǐ)令(lìng)的(de)精(jīng)确(què)性(xìng)。整个系统架构通过底层反馈机制，实现了对规划执行的实时监控和动态调整，确保了机器人在复杂环境中的高效、稳定和自适应的运行。-
第 3 章算法原理分析-
3.1 基于动力学模型的多模式运动控制原理-
采用零空间映射全身运动控制（WBC）方法，将低优先级任务映射至高优先级(jí)任(rèn)务(wu)零(líng)空(kōng)间(jiān)，实(shí)现(xiàn)多(duō)任(rèn)务(wu)运(yùn)动(dòng)。四(sì)足(zú)机(jī)器(qì)人(rén)运(yùn)动(dòng)控(kòng)制(zhì)任务按优先级分为躯干位置、姿态、支撑腿及摆动腿任务，通过零空间映射获取关节位置、速度与加速度。其中，关节位置和速度利用 PD 控制稳定姿态；关节加速度结合模型预测控制（MPC）计算的前馈支撑力，通过 QP 优化调整误差，最终由动力学方程算出加速度。该方法通过 MPC 确定最优反力分布，WBC 据此计算关节力矩、位置与速度，降低控制复杂度。-
3.2 基于指令式学习的四足机器人自主导航原理-
3.2.1 环境语义构建-
将雷达、相机采集信息传入大语言模型，利用其语义理解能力提取关键信息并生成优化指令，再通过百度文本合成模块播报，助力机器人在复杂环境下快速决策。-
3.2.2 指令式学习路径规划-
基于度量的可微分优化训练策略，构建可微分代价图计算路径穿越成本，指导网络更新。训练后的策略从自身观察提取环境信息，解码为可穿越性数据，规划行动路径。端到端训练使观察特征可依目标优化，提升实际应用性能。-
3.3 基于 AI 大语言模型的智能行为调度-
3.3.1 自然人机交互的语义解析-
使用百度 Appbuilder 语音识别极速版（ASR）处理语音指令，通过认证创建请求，采用 RAW 音频传输提高效率。识别文本经短文本语音合成（TTS）输出，调用时控制文本长度优化处理。针对中文多音字标注实现自定义发音。-
基于提示语言模型，将输入文本预处理后，由提示生成模块创建任务提示，大语言模型分析生成内部表示，输出模块转化为文本，反馈模块依据用户反馈优化。通过提示工程，ASR 将语音转换文本并提取关键词，大语言模型将其转为标准化控制指令，TTS 反馈结果，实现人机交互。-
3.3.2 逻辑推理与智能调度-
利用大语言模型逻辑推理能力解析用户指令，在复杂场景中提供替代方案、处理伦理判断。提出智能行为调度策略，将人类指令转化语义信息，通过高层反馈纠错、动态调整任务子函数，运动状态机与规划转化为具体运动，底层反馈应对执行问题，实现机器人复杂环境下的智能决策与自主调度。