基于大模型的具身智能系统综述

2025-02-24 16:55阅读：

http://blog.sina.cn/dpool/blog/u/1304706164

引用本文

王文晟, 谭宁, 黄凯, 张雨浓, 郑伟诗, 孙富春. 基于大模型的具身智能系统综述. 自动化学报, 2025, 51(1): 1−19 doi: 10.16383/j.aas.c240542
Wang Wen-Sheng, Tan Ning, Huang Kai, Zhang Yu-Nong, Zheng Wei-Shi, Sun Fu-Chun. Embodied intelligence systems based on large models: A survey. Acta Automatica Sinica, 2025, 51(1): 1−19 doi: 10.16383/j.aas.c240542
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c240542

关键词

大语言模型，大型视觉模型，基础模型，具身智能，机器人

摘要

得益于近期具有世界知识的大规模预训练模型的迅速发展, 基于大模型的具身智能在各类任务中取得了良好的效果, 展现出强大的泛化能力与在各领域内广阔的应用前景. 鉴于此, 对基于大模型的具身智能的工作进行了综述, 首先, 介绍大模型在具身智能系统中起到的感知与理解作用; 其次, 对大模型在具身智能中参与的需求级、任务级、规划级和动作级的控制进行了较为全面的总结; 然后, 对不同具身智能系统架构进行介绍, 并总结了目前具身智能模型的数据来源, 包括模拟器、模仿学习以及视频学习; 最后, 对基于大语言模型(Large language model, LLM)的具身智能系统面临的挑战与发展方向进行讨论与总结.

文章导读

具身智能的概念最早可以上溯至1950年图灵在其著名论文“Computing machinery and intelligence”[1]中对未来机器发展方向的设想: 一个方向是让机器学会抽象技能, 如下棋; 另一个方向则是为机器人提供足够好的传感器, 使之可以像人类一样学习. 前者的思想出现在后来发展的各类神经网络如多层感知机、卷积神经网络中, 即离身智能; 后者则逐渐发展出了具身智能的概念. 现在, 具身智能一般指拥有物理实体, 且可以与物理环境进行信息、能量交换的智能系统[2]. 虽然在过去的几十年间, 离身智能取得了令人瞩目的成就, 但对于解决真实世界的问题来说, “具身”的实现仍然是必要的, 与强调从经验中学习并泛化的离身智能方法相比, 具身智能更强调与环境的交互, 只有拥有物理身体才能与世界进行互动, 更好地解决现实问题[3]. 当前, 随着机器人技术和计算机科学的发展, 具身智能受到更多的关注, 逐渐从概念走向实际应用, 而如何利用目前飞速发展的计算能力与人工智能(Artificial intelligence, AI)技术提高具身智能的表现则成为学界与产业界的关注重点. 最近的研究表明, 通过扩大语言模型的规模, 可以显著提高其在少样本学习任务上的表现, 以GPT-3 (Generative pre-trained transformer 3)[4]为代表的大语言模型(Large language model, LLM)在没有进行任何参数更新或微调的情况下, 仅通过文本交互来指定任务和少样本示例就能很好地完成各类任务. 在此之后, 具有优秀泛化能力与丰富常识的基础模型在计算机视觉、自然语言处理等领域都展现出令人瞩目的效果. GPT-4[5]、LLaMA[6]、LLaMA2[7]、Gemini[8]、Gemini1.5[9]等大语言模型能与人类进行流畅的对话, 进行推理任务, 甚至进行诗歌和故事的创作; BLIP (Bootstrapping language-image pre-training)[10]、BLIP2[11]、GPT4-V[12]等视觉−语言大模型则能对图片进行图像分割[13]、目标检测[14]、视觉问答(Visual question answering, VQA)[15]; DINO (Detection transformer with improved denoising anchor boxes)[16]、CLIP (Contrastive language-image pre-training)[17]、SAM (Segment anything model)[18]等视觉基础模型则以低于前两者的模型量级提供跨越图像与文本鸿沟的能力, 为进行实时的开放词汇的视觉检索提供了可能. 这一系列的进展不仅展示了基础模型的强大潜力, 也为其与具身智能的融合提供了新的视角和可能性. 文献[19] 将上述在大规模数据集上进行训练并能适应广泛任务的模型统称为基础模型, 意即可作为大量下游任务训练基础的模型(目前一般认为基础模型即大模型, 后文将不对二者作区分). 由于涉及到物理环境, 机器人深度学习模型往往面临数据获取难度大、训练的模型泛化性差的困境, 传统机器人往往仅能处理单一任务, 无法灵活面对复杂的真实环境. 而基础模型用来自互联网的大量文本、图片数据进行预训练, 往往包含各种主题与应用场景, 能学习到丰富的表示与知识, 具有解决各类任务的潜能, 其作为具身智能的“大脑”能显著弥补机器人领域训练数据少且专门化的缺点, 为系统提供强大的感知、理解、决策和行动的能力. 此外, 基础模型的零样本能力使得系统无需调整即能适应各种未见过的任务, 基础模型训练数据的丰富模态也可以满足具身智能对各类传感器信息的处理需求. 无论是视觉信息、听觉信息, 还是其他类型的感知数据, 基础模型都能够为具身智能提供全面和准确的理解. 在实际应用中, 这意味着具身智能能够更好地适应环境变化, 理解各种操作对象, 解决各种复杂问题.

大模型的强大理解能力也能为具身智能带来与人类无障碍沟通的能力, 能更有效且准确地理解用户需求, 而大模型的长对话能力也使其具有处理复杂任务的能力, 并规划长期目标. 这些特点都使得具身智能有别于传统的仅面向单一任务, 或同质任务的传统机器人, 使其具有更强的自主性与适应性. 人形机器人的突出优势就是其通用性, 而大模型带来的认知能力则是形成通用性的关键[20]. 近期, 各大机器人企业制造的人形机器人, 如宇树机器人Unitree H1、特斯拉机器人Optimus, 以及Figure AI的Figure 01均使用了基础模型进行赋能, 展现出令人惊讶的理解、判断和行动能力.

随着大模型的发展, 近年基于大模型的具身智能工作已经成为研究热点, 各类试图将二者结合的工作层出不穷. 尽管目前有一些以具身智能为主题的综述[21−23], 但并未聚焦于大模型. 目前也有综述研究大模型在机器人上的应用[24−28], 但不同的是, 本文的内容更倾向于从具身智能的角度介绍二者如何有机结合, 并加入对模型规划层级的分类探讨. 此外, 由于该领域发展迅速, 在上述论文发布后又涌现出了许多重要工作, 本文将补充这些最新进展, 为希望了解该领域的研究人员提供更多的参考 (工作总览见图1[25, 29−100]).

图 1 基于大模型的具身智能工作概览

举报/Report

我的更多文章

下载客户端阅读体验更佳

APP专享

新浪博客

基于大模型的具身智能系统综述

分享

我的更多文章

下载客户端阅读体验更佳

疯狂捕鱼