董豪团队 投稿
量子位 | 公众号 QbitAI
想象一下当你躺在沙发上,只需要不假思索地说出指令,机器人就能帮你干活,是不是听起来就十分惬意?
如今这种科幻电影中的场景正在变为现实,来自北京大学的助理教授、博士生导师董豪团队近日提出首个通用指令导航大模型系统InstructNav。
不论是寻找物体,走到指定位置,还是满足抽象的人类需求,只要你说出指令,InstructNav都能帮你实现。
目前该工作已经被CoRL(Conference on Robot Learning)2024会议录用,文章可在Arxiv浏览,代码也即将在近期开源。
大模型如何统一具身指令导航规划?
不同的导航任务要求截然不同的能力,经典的物体导目标航任务需要理解房间结构和物体之间的联系,视觉语言导航任务侧重于严谨地遵循指令,而新兴的需求驱动的导航任务要求根据人类抽象需求进行语义推理。
先前研究工作都围绕某一种特定类型的指令设计一个特定类型的导航方法,然而在真实应用中,人类可能向机器人下达不同形式的指令,甚至混合类型指令,现有的具身导航模型都无法满足这样的实际需求,因此实现通用指令导航对于机器人在现实世界的应用充满价值。
为了实现这一目标,作者首先提出动态导航链路(Dynamic Chain-of-Navigation)这一全新的导航规划范式,将不同类型的导航指令统一为“导航动作 1 - 标志物1 -> 导航动作 2 - 标志物 2 … ”的标准形式。
InstructNav利用大语言模型在任务规划和常识推理上的卓越能力,根据原始指令规划导航链路。
在导航过程中,InstructNav会根据最新观测到的场景物体不断更新导航链路,引导机器人对于环境进行有效探索。
例如,当指令要求“寻找沙发”时,动态导航链路会被更新为“探索 - 电视”附近区域,因为电视旁边最可能存在沙发。
构建大模型推理到价值地图的映射
以上由大模型规划的动态导航链路和控制机器人底层动作之间仍然存在较大差异。
为了引导机器人根据动态导航链路行动,作者提出将大模型的规划结果映射到多源价值地图(Multi-sourced Value Maps)上,这些价值地图包括:
动作价值地图(Action Value Map):赋予待执行动作对应的区域更高可导航价值。
语义价值地图(Semantic Value Map):赋予标志物对应的区域更高可导航价值。
直觉价值地图(Intuition Value Map):利用多模态大模型判断全景图中最适合移动的区域,并赋予更高可导航价值。
轨迹价值地图(Trajectory Value Map):赋予远离现有轨迹的区域更高的可导航价值。
通过对多源价值地图相加求和即可得到决策价值地图(Decision-making Value Map)。
在决策价值地图上选取最高价值点作为下一途径点,然后利用点到点的路径规划算法即可实现对于机器人底层移动的控制。
多个零样本导航任务新SOTA
作者在经典的物体目标导航任务,视觉语言导航任务以及最新的需求导航任务上开展标准化评测。
从以下表格中可以观察到,InstructNav首次实现连续环境下零样本的视觉语言导航,并在零样本的物体目标导航和需求驱动导航任务上全面超越所有的现有方法,获得最高成功率。
来源: 量子位