Skip to content

MORE: Mobile Manipulation Rearrangement Through Grounded Language Reasoning

grok-3-latest
Score: 0.42
Published: at 21:26

Summary: MORE 提出了一种基于场景图和语言推理的移动操作方法,通过任务相关子图过滤和 LLM 规划,首次在 BEHAVIOR-1K 基准测试中完成大量日常重新排列任务,并在现实世界中展现应用潜力。

Keywords: Mobile Manipulation, Scene Graph, Language Reasoning, Task Planning, Environment Representation

Authors: Mohammad Mohammadi, Daniel Honerkamp, Martin Büchner, Matteo Cassinelli, Tim Welschehold, Fabien Despinoy, Igor Gilitschenski, Abhinav Valada

Institution(s): University of Freiburg, University of Toronto, Toyota Motor Europe

Problem Background

自主移动操作(Mobile Manipulation)在大型、未知环境中执行长距离重新排列任务时,面临场景动态性、未探索区域和错误恢复等多重挑战。 现有方法在处理大量对象和大规模环境时,规划时间会爆炸式增长,或因信息过载产生幻觉(Hallucinations),导致可靠性下降。 此外,现有研究多局限于已知环境或特定任务,缺乏对未知环境(包括室内和室外)的泛化能力。 论文的出发点是通过自然语言驱动的机器人推理,解决零样本(Zero-Shot)任务规划问题,特别是在 BEHAVIOR-1K 基准测试中的日常活动任务。

Method

Experiment

Further Thoughts

场景图过滤机制的理念可以通过 LLM 动态提取任务相关信息,未来可扩展到其他领域,如自然语言处理中的上下文聚焦或多模态任务中的信息精炼; 室内外统一表示的思路启发我们可以在跨域机器人任务中引入更多动态感知数据(如实时更新场景图),以增强适应性; 任务模糊性问题提示未来可通过人机交互或上下文推理机制,进一步提升任务规划的鲁棒性。