首页 > 基础资料博客日记

从零开始的双臂具身VLA起源及现阶段发展综述

2026-04-12 23:30:03基础资料围观1次

文章从零开始的双臂具身VLA起源及现阶段发展综述分享给大家，欢迎收藏极客资料网，专注分享技术知识

作者：SkyXZ

CSDN：SkyXZ～-CSDN博客

博客园：SkyXZ - 博客园

一、从大语言模型到具身智能的范式跃迁

过去几年，LLM模型和VLM模型发展得非常快。尤其是在2020年ChatGPT发布GPT-3之后，大家越来越清楚地看到，模型在语言理解、知识调用、常识推理，甚至跨任务泛化上，已经具备了很强的能力。也正因如此，一个很自然的问题开始出现：如果模型已经这么“聪明”，那它能不能进一步走出数字世界，真正去理解环境、操作物体、完成任务？

而目前传统的机械臂控制通常遵循分层式技术路线，其核心思想是将“感知—规划—控制”拆解为多个相对独立的模块逐级求解。在这一框架下，系统首先依据环境感知结果和人工设定目标完成任务级决策，然后通过正运动学与逆运动学建立机械臂关节空间与末端执行器之间的映射关系，再结合路径规划、轨迹生成与反馈控制，最终将高层目标转化为可执行的关节位置、速度或力矩指令。其中，正运动学用于根据关节状态求解末端位姿，逆运动学则用于由目标位姿反推机械臂关节配置；在此基础上，系统通常还需要引入运动规划算法来避障、满足运动学约束，并通过 PID、阻抗控制或模型预测控制等底层方法实现稳定执行。这样的分层控制体系在结构化环境和预定义任务中具有较高的稳定性与可解释性，也是目前机械臂控制的主流范式。

这种方法在结构化工业场景中具有较高的稳定性与可解释性，但也高度依赖精确建模、人工规则和任务先验。当任务逐渐从固定工位抓取扩展到开放环境中的语言交互、复杂操作与长程任务执行时，传统分层控制框架开始暴露出模块割裂、误差累积以及泛化能力不足等问题。

不过LLM 和 VLM 虽然已经拥有了很强的“理解能力”，但它们本质上仍然主要工作在文本和图像构成的数字空间里，缺少一个能够与真实世界持续交互的“身体”。正是在这样的背景下，有些学者开始思考：能不能把视觉、语言和动作统一到同一个模型框架中，让模型不仅能“看懂”和“听懂”，还能进一步“做出来”？于是VLA（Vision-Language-Action）模型自然而然的成为了大家研究的载体，VLA模型在数学架构上可以被形式化地定义为一个端到端的马尔可夫决策过程（MDP）映射策略 $ \pi(a_t \mid o_t, l) $。在该表达式中，$$o_t$$代表系统在 $$t$$时刻接收到的高维观测数据，这些数据通常由多视角的RGB图像序列和机器人本体感受状态（Proprioceptive states，如关节角度、末端执行器位姿等）组成；$$l$$代表来自人类用户的自然语言高阶指令；而$$a_t $$则是模型直接输出的底层机器运动控制命令序列。通过将视觉图像和文本指令编码为连续或离散的上下文特征向量，并自回归或通过扩散过程生成动作张量，VLA实现了从高层认知规划到低层物理执行的闭环。

与此同时，随着任务需求从简单的桌面抓取逐步扩展到家庭服务、工业装配等更复杂场景，具身智能的硬件载体也在持续演化：从早期以 UR5、Franka 为代表的单臂系统，逐渐过渡到以 ALOHA、双臂 ARX 乃至人形机器人为代表的高自由度双臂协作平台。双臂系统的引入并不只是执行器数量的增加，更意味着动作空间维度、协同控制复杂度以及接触规划难度的显著提升。与单臂操作相比，双臂任务不仅要求机器人分别完成每只手臂的运动控制，还要求其在双手之间建立稳定的时序配合、力学协调与空间协同关系。正因如此，双臂具身任务也逐渐成为检验 VLA 是否真正具备复杂物理交互能力的重要场景。

二、VLA的起源与早期双臂协作困境：RT系列的开创与局限

目前对大规模VLA模型的探索，最早可追溯至Google DeepMind在2022年推出的Robotic Transformer（RT）系列模型。RT-1(RT-1: Robotics Transformer for Real-World Control at Scale)的问世确立了基于Transformer架构的大规模真实世界物理控制范式，该模型通过吸收超过700个任务的13万个真实物理互动片段，首次证明了可以通过单一的大容量神经网络统一视觉特征、语言指令和机器人动作序列输出。

而随后发布的RT-2(RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control)模型更进一步，确立了现代VLA的基本范式，他将具身控制策略与互联网级视觉-语言预训练模型（VLM）进行了深度融合，通过联合微调互联网规模的图文数据与机器人轨迹数据，赋予了机器人强大的语义推理与跨环境泛化能力。

尽管 RT 系列在单臂抓取和桌面级语义任务中展现了惊人的潜力，其核心架构在向双臂协作和高灵巧度任务扩展时，暴露出深层的机制局限性。这些局限主要体现在基于“动作分词化”（Action Tokenization）的自回归建模路线上。为了复用 LLM 的交叉熵损失函数（Cross-entropy loss），RT 系列和部分早期 VLA 将连续的机器人关节角度或末端坐标强制离散化为固定数量的区间（通常为 256 个 Bins），但也意味着动作表示本质上仍是对连续控制空间的近似，难以天然适配双臂操作中更高自由度、更强耦合、更高精度的连续控制需求。

RT 系列虽然在语义理解与跨场景泛化方面显著受益于互联网规模的预训练，但其“能够执行什么动作”本质上仍然受到机器人演示数据分布的严格限制。其论文也明确指出，网页级视觉—语言预训练带来的主要是语义概念与视觉知识的迁移，而不是全新物理技能的产生，也就是说模型可以更智能地调用训练中已经掌握的操作能力，却无法仅凭互联网知识自动习得机器人轨迹数据中从未出现过的新型操作技能。与此同时，RT 系列高达55B的参数规模也制约了其迈向更复杂的具身场景，哪怕其5B参数规模的版本实际的控制频率也仅约5Hz，此外RT-2在训练与推理的过程中还需要显式约束输出词表，使模型在机器人任务提示下只能采样有效的动作 token。

三、VLA双臂具身的阶段式发展

（一）阶段一：从 RT 范式到开放通用基座

尽管 RT 系列还存在不少问题，但它确实实打实地把今天 VLA 的基本范式立住了：也就是把视觉、语言和动作放进同一个大模型里统一建模，让机器人不再只是“看见以后执行预设程序”，而是真正开始朝着“理解指令—结合场景—直接生成动作”这条路走。RT-1 证明了大规模 Transformer 可以在真实机器人数据上学出统一控制策略，RT-2 则更进一步，把互联网规模的视觉—语言预训练知识接进了机器人控制链路里，让 VLA 第一次展现出比较像样的语义泛化和跨场景迁移能力。可以说，后面不管是开源基座、双臂 foundation model，还是后来讲的“具身大脑”，本质上都没有跳出 RT 系列打下来的这套框架。

但 RT 系列解决的更多是“范式能否成立”的问题，真正进入双臂具身场景后，研究者首先遇到的反而不是模型结构，而是数据从哪里来、双臂操作模型怎么学的问题，于是紧接着，斯坦福团队在 2023 年推出了 ALOHA (Mobile ALOHA: 使用低成本全身遥操作学习双臂移动操作)低成本双臂平台，并同时提出了 ACT（Action Chunking with Transformers:Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware）,这一模型虽然并不是属于严格意义上的VLA（属于VA模型），但它首次系统性地降低了双臂示教与模仿学习的门槛。ALOHA让双臂数据采集变得低成本、可复制，而ACT则通过动作块预测和条件变分建模缓解了精细操作中误差累积与演示多样性带来的学习困难，使机器人能够在较少示教样本下完成插拔、装配和双手协同等高精度任务。（到 2024 年，ALOHA升级为Mobile ALOHA，又进一步把这条路线从静态桌面任务扩展到 whole-body 移动双臂操作）

与此同时，Open X-Embodiment / RT-X（Open X-Embodiment: Robotic Learning Datasets and RT-X Models）则率先从数据层面打破了实验室壁垒，该项目整合了 21 家机构、22 种机器人 embodiment、60 个已有数据集以及 100 万条以上真实机器人轨迹，第一次构建起一个面向通用机器人学习的开放、多本体、多任务数据底座。它的意义不只是“规模更大”，而在于把此前分散在不同实验室中的机器人数据统一到了同一个生态之下，让通用机器人模型不再只能依赖单一实验室的封闭数据进行训练。

在 Open X-Embodiment 打通开放数据底座之后，Octo(Octo: An Open-Source Generalist Robot Policy)的出现进一步补上了从“开放数据”走向“开放模型”的关键一环。与其说 Octo 的目标是追求一个参数更大、指标更高的 VLA，不如说它率先回答了一个更基础也更重要的问题：在大规模、开放、多本体的机器人数据之上，是否真的能够训练出一个可复用、可迁移、可快速适配的通用策略基座。事实证明，答案是肯定的。Octo 不仅验证了开放数据足以支撑通用机器人策略的预训练，也标志着机器人学习开始从“数据共享”进一步迈向“模型共享”，使开放生态下的通用策略研究第一次具备了清晰而具体的实现路径。

在此基础上，OpenVLA(OpenVLA: An Open-Source Vision-Language-Action Model)的发布标志着“开放通用基座”真正走向成熟。作为一个 7B 参数的开源 VLA，OpenVLA 基于 97 万条真实机器人演示进行训练，采用 DINOv2 与 SigLIP 双视觉编码器结合 Llama 2 语言骨干的架构设计，不仅显著降低了社区复现大规模 VLA 的门槛，也系统验证了“大基座预训练 + 参数高效微调”这一范式的现实可行性。

不过，OpenVLA、Octo 乃至 RT-X 的主要成功仍然更偏向“通用基座”层面，对于真正复杂的双臂高频协同、强接触操作和多模态动作分布，它们并没有给出最终答案。也正是在这个背景下，清华 TSAIL 团队开源了面向双臂操作的 RDT-1B(RDT-1B: a Diffusion Foundation Model for Bimanual Manipulation)，将 diffusion foundation model 正式引入双臂具身场景；该模型在 46 个数据集、100 万条以上多机器人 episodes 上完成预训练，并进一步利用 6K+ 的 ALOHA 双臂数据进行精调，标志着开放通用基座路线与双臂操作路线开始真正汇合。至此，VLA 在双臂具身领域的发展也正式从早期的范式验证阶段，迈入了以开放基座、真实数据积累和通用动作建模共同驱动的新阶段。

（二）阶段二：打破数据枯竭与仿真平台的大规模崛起

随着VLA模型研究的快速深入，大家迅速触碰到了阻碍双臂VLA发展的最大瓶颈：数据枯竭（Data Scarcity）。虽然大模型的成功验证了通过大规模Scaling数据可以持续提升模型的能力，但是与可以通过爬虫获取的互联网图文不同，双臂机器人专家级演示轨迹的获取依赖人工采集，因此想要大规模数据的话这一过程极其昂贵、缓慢，且在任务类型、操作风格和场景分布上普遍缺乏足够的多样性，已经难以支撑数十亿参数级模型对训练数据规模与覆盖范围的需求。（双人一机器一天采集的百条数据对于大规模预训练所需的百万级数据简直是杯水车薪）

因此，到了2024-2025年前后，VLA的发展开始明显从“单纯做更大的模型”转向“先解决数据从哪里来”的现实问题。一方面，学界和工业界当然也在尝试继续扩大真实世界数据采集规模，例如DROID(DROID: A Large-Scale In-the-Wild Robot Manipulation Dataset)、AgiBot World(AGIBOT WORLD)以及RDT开源的自采微调数据集(huggingface.co)等等已经将真实轨迹规模推到百万条以上;

同时另一方面，越来越多研究者逐渐意识到，仅靠人工遥操作和真实机器人采集，仍然很难在成本、速度和多样性上真正跟上VLA的数据需求。尤其在双臂场景下，任务往往伴随着复杂接触、双手协同、遮挡、形变物体和长时序操作，导致真实演示不仅昂贵，而且极难覆盖足够丰富的任务分布，也正因如此，仿真侧在这一阶段开始迅速从“辅助训练工具”演化为“数据扩增主战场”。在真正意义上的大规模数据生成工具出现之前，社区其实已经先积累起一批重要的仿真 benchmark 与数据集基础。其中，LIBERO(Datasets)是一个非常典型的前置节点。它本质上并不是面向双臂的数据工厂，而是一个标准化的manipulation benchmark：官方提供130 个语言条件任务，并配有程序化任务生成管线，能够持续扩展任务组合与评测配置。

在此基础上，研究者开始进一步思考：如果仿真环境本身已经足够成熟，那么能不能不再满足于少量固定 benchmark，而是直接在仿真中自动生成 demonstrations、自动扩展任务、自动丰富场景分布？围绕这个问题，仿真数据生成工具开始集中出现。较早且非常有代表性的工作是 MimicGen(MimicGen)。它的核心思想并不是从零发明任务，而是从少量人工示教出发，在仿真中自动合成大量新的 demonstrations。论文报告显示，MimicGen 可以从 不到 200 条人类 demonstrations 自动扩展出 50,000+ 条 demonstrations，覆盖 18 个任务以及多种场景配置、物体实例和机器人平台。这类工作的意义非常直接：它第一次让“少量人类示教 + 大规模自动扩数”变成了一条现实可行的技术路线。

与 MimicGen 相比，GenSim(GenSim: Generating Robotic Simulation Tasks via Large Language Models)则更进一步，把关注点从“示教扩增”推进到了“任务生成”本身。GenSim 利用大语言模型的代码生成与语义组织能力，自动构建新的仿真任务与专家 demonstrations；论文中明确指出，它将原有 benchmark 扩展了 10 倍以上，达到 100+ tasks，并且由此得到的仿真程序与数据在多任务策略训练中可以显著提升任务级泛化能力，在最小 sim-to-real 适配下，对未见长程真实任务的迁移性能相较基线提升 25%。这说明，仿真侧的扩张已经不再只是简单随机化物体位置，而是开始进入“自动生成更复杂任务结构”的阶段。

如果说 MimicGen 和 GenSim 分别代表了“示教扩增”和“任务扩增”两条路线，那么RoboTwin(GitHub - RoboTwin-Platform/RoboTwin at RoboTwin-1.0)则是在 2025 年把这两条路线与双臂操作场景真正合在了一起。与传统仿真平台主要依赖人工建模不同，RoboTwin 借助生成式数字孪生思路，把“数据生成”和“评测基准”同时做了起来：它能够从单张 2D 图像出发，结合 3D 生成模型与大语言模型构建更丰富的物体数字孪生和任务场景，并进一步生成面向双臂操作的专家级示教数据。这样一来，仿真平台不再只是一个可视化训练环境，而开始具备自动扩增任务、自动扩增物体和自动扩增场景分布的能力。对于双臂 VLA 而言，这一点尤为关键，因为它意味着数据规模化不再完全受制于真实世界中“人要一条一条示教”的上限。论文结果也给出了一个非常直接的信号：在有限真实样本微调条件下，基于 RoboTwin 合成数据预训练的策略，相比只用真实数据训练的模型，在单臂任务上成功率提升 70%+，在双臂任务上提升 40%+。

在此基础上，RoboTwin 2.0(RoboTwin 2.0 Offical Document)则进一步把这条路线推向成熟。相较于早期版本，RoboTwin 2.0 已经不再只是一个生成式数字孪生 benchmark，而是演化为一个更完整的“双臂仿真数据工厂”：它构建了名为 RoboTwin-OD 的对象库，包含 731 个物体实例、147 个类别；覆盖 50 个双臂任务和 5 种机器人 embodiment；并通过多模态语言模型自动生成任务级执行代码，显著增强了合成数据的多样性与 sim-to-real 鲁棒性。更重要的是，论文报告显示，仅用合成数据再加上 10 条真实 demonstrations 进行训练，所得 VLA 相比 10-demo baseline 获得了 367% 的相对提升；即便完全只用合成数据进行 zero-shot 训练，也有 228% 的相对提升。这说明，到了这一阶段，仿真平台的作用已经不再只是“预训练前的辅助热身”，而是真正开始成为双臂 VLA 数据扩容的主力来源之一。

（三）阶段三：VLA研究爆发与多种训练范式的涌现

在过去的三年，VLA领域的论文迎来了爆炸式的发展，基于OpenReview上的关键词搜索，ICLR会议中"Vision -Language-Action"关键词的论文从ICLR2024的唯一一篇被拒稿到ICLR2025的六篇论文三篇被拒到ICLR2026接收了164篇论文，仅2025年一年就出现了VLA论文的井喷式发展

如果说前两个阶段解决的主要是“VLA 范式能不能成立”以及“训练数据从哪里来”的问题，那么到了 2024 年末至 2026 年前后，VLA 研究则进入了一个明显的爆发期。这个阶段最突出的特征，是研究重心开始从“搭建开放基座”和“扩充训练数据”进一步转向“如何让 VLA 真正具备开放世界泛化、连续动作建模、长程推理与跨本体部署能力”。在这一意义上，Physical Intelligence 推出的 π₀(Our First Generalist Policy) 可以被视为这一阶段的标志性起点。与早期依赖离散动作 token 的 VLA 不同，π₀ 采用了建立在预训练视觉—语言模型之上的 flow matching 架构，以连续生成方式建模机器人动作分布，并在单臂、双臂以及移动操作等多种平台数据上联合训练，直接面向衣物折叠、桌面清理、装箱等更复杂、更灵巧的真实任务。它的重要性不只在于性能提升，更在于明确释放出一个信号：VLA 的竞争，正在从“谁先把大模型接上机器人”转向“谁能把大模型真正训练成可用的连续控制系统”。

在 π₀ 之后不久，π₀.₅ (A VLA with Open-World Generalization)又进一步把这一方向推进到了“开放世界泛化”的层面。相较于更偏基础能力验证的 π₀，π₀.₅ 更强调通过co-training 融合多源异构任务与监督信号，使模型能够在训练中吸收来自不同机器人、不同任务结构以及不同语义层次的数据，从而提升在真实开放场景中的迁移能力。论文明确把“open-world generalization”作为核心目标，并展示了模型在未见家庭环境中的任务执行能力。到这一步，VLA 研究的目标已经不再只是“能否执行某类 manipulation skill”，而是进一步指向“能否走出实验室，在开放环境中保持稳定而广泛的任务适应能力”。

不过，随着基座模型本身越来越成熟，研究者很快发现：性能提升并不一定只能来自“再训练一个更大的新模型”，很多时候，训练和微调策略本身就足以决定 VLA 能否真正落地。这一点最典型的代表就是 OpenVLA-OFT(Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success)。这项工作并没有重新设计全新的 foundation model，而是围绕 OpenVLA 系统研究了 action decoding、action chunking、continuous action representation 以及优化目标等关键设计，提出了一套更高效的 fine-tuning recipe。最终，OpenVLA-OFT 将 OpenVLA 在 LIBERO benchmark 上的平均成功率从 76.5% 提升到 97.1%，同时把动作生成吞吐提高 26×,它所揭示的核心事实是：VLA 进入爆发期之后，真正的竞争不再只发生在“基座是谁”这一层，而开始深入到“后训练怎么做、动作怎么解码、连续控制怎么适配”的细粒度工程与方法设计中。

如果说 OpenVLA-OFT 代表的是“更好的 supervised fine-tuning”，那么 SimpleVLA-RL(SimpleVLA-RL: Scaling VLA Training via Reinforcement Learning)则标志着另一条新路线的成熟：强化学习****开始真正进入 VLA 后训练主舞台。 这项工作建立在 OpenVLA-OFT 之上，针对数据稀缺和分布外泛化问题，把 RL 直接用于 VLA 的长程动作规划与策略优化。论文表明，它不仅在 LIBERO 上取得更强结果，还在 RoboTwin 1.0/2.0 上超过了 π₀，并在真实任务中显著优于单纯监督微调。同时，作者还观察到 RL 训练中会出现 “pushcut” 现象，即模型学出训练数据中未曾出现的新动作模式。这意味着到了这一阶段，VLA 的训练范式已经从“预训练 + SFT”开始明显扩展为“预训练 + 高效微调 + RL 后训练”的更完整链条。

与此同时，另一条快速成形的路线，是将 VLA 进一步扩展为更完整的系统级具身基础模型。在这方面，GR00T N1(GitHub - NVIDIA/Isaac-GR00T: NVIDIA Isaac GR00T N1.6 - A Foundation Model for Generalist Robots.) 是一个非常有代表性的节点。它面向 generalist humanoid robot 场景提出了一个开源 foundation model，采用 dual-system 架构：其中 System 2 负责视觉—语言理解，System 1 负责实时动作生成，两者端到端联合训练。相比前面主要聚焦 manipulation policy 的工作，GR00T N1 所代表的变化在于，VLA 开始不再只被视为一个机器人操作策略，而被进一步抬升为面向人形机器人、跨 embodiment、跨任务的通用“具身大脑”候选架构。与此同时，HoloBrain-0(HoloBrain)又从另一侧推进了系统级 VLA 的设计，它显式将多视角相机参数和机器人 URDF 等 embodiment priors 编入模型，在追求通用性的同时更强调三维空间推理能力与真实部署可靠性。到了这一阶段，VLA 的竞争已经不再只是单一策略模型之间的性能比较，而开始演化为围绕系统分层、空间先验、本体建模与跨平台部署能力展开的“具身大脑”体系竞争。

（四）阶段四：真机复现瓶颈与真机评测基准的建立

虽然到了2025年前后，不少 VLA 方法已经在仿真 benchmark 上取得了接近饱和的成绩，例如 OpenVLA-OFT 在 LIBERO 四个任务套件上的平均成功率已经达到 97.1%；在 RoboTwin 2.0 这一类双臂仿真 benchmark 上，后续方法的原始设置成功率也已经达到 92.1%。这说明，单纯从仿真分数上看，VLA 的能力似乎正在快速逼近“高分段”。但问题在于，VLA 的最终目标从来不是把模拟环境刷到高分，而是要在真实物理世界中稳定完成操作任务。也正是在这一点上，大家很快发现：仿真高分与真机可复现之间，仍然存在一条巨大的鸿沟Aloha大作战之模仿学习算法部署全流程。

这条鸿沟首先体现在真机复现本身的困难上。与仿真环境中的统一机器人、统一传感器和统一任务配置不同，现实中的 VLA 实验往往依赖各家实验室自己搭建的硬件平台：机械臂型号不同、夹爪不同、相机安装位置不同、控制频率不同、标定流程不同，甚至连物体摆放、光照条件、桌面材质和语言提示模板都可能存在明显差异。结果就是，即使两篇论文在方法上看似只差一个 backbone 或一个训练 recipe，它们的真机结果也往往很难做到严格意义上的横向比较，更不用说让其他团队完整复现。换句话说，当仿真 benchmark 逐渐被“刷高”之后，领域里真正稀缺的已经不再只是更强的模型，而是一个能够在统一真机条件下公平比较模型能力的标准化评测体系。这一点也正是 RoboChallenge(RoboChallenge: Large-scale Real-robot Evaluation of Embodied Policies)报告开篇反复强调的问题：对于学习式机器人控制，尤其是 VLA，如何在保证可扩展性的同时实现大规模、可复现的真实机器人评测，本身就是一个高度非平凡的问题。

在这样的背景下，RoboChallenge 的出现可以看作这一阶段最具标志性的转折点之一。RoboChallenge 将自身定义为一个面向 embodied policies 的大规模真机在线评测系统，其核心目标是要解决“如何把真实机器人评测做成公共基础设施”这一长期缺失的问题。它的意义在于，VLA 研究开始第一次系统性地从“各家论文各做各的真机 demo”，转向“在统一平台、统一任务和统一协议下进行集中评测”。也就是说，到了这一阶段，真机 benchmark 不再只是论文附录里的几个 showcase，而开始成为与模型本身同等重要的研究对象。

（五）阶段五：突破时间感知——长程任务规划与多尺度记忆机制

现有 VLA 虽然已经能够完成不少短程 manipulation 任务，但在真正长程、历史依赖、部分可观测的任务中，仍然普遍表现出明显的‘短视性’。它们往往只能依据当前观测做局部动作预测，一旦任务需要记住已经完成了哪些步骤、某个物体此前被放在何处、是否已经按过按钮、当前究竟处于哪一个子任务阶段，模型就容易出现轨迹漂移、错误累积和阶段性崩溃。也正因如此，到了26年初，VLA的研究重点开始从“把动作预测得更准”进一步转向“如何让模型具备持续数分钟甚至十几分钟的任务一致性与状态记忆能力”。

从时间线上看，这一阶段的一个早期信号出现在2025 年下半年。例如[NeurIPS2025]RoboCerebra(RoboCerebra: A Large-scale Benchmark for Long-horizon Robotic Manipulation Evaluation)已经明确把评测重点放在 long-horizon robotic manipulation 上，强调大语言模型生成的长链条任务、细粒度子步骤标注以及动态场景变化的重要性；而 EchoVLA(EchoVLA: Synergistic Declarative Memory for VLA-Driven Mobile Manipulation)则开始正面把“memory-aware VLA”作为目标，提出面向长程移动操作的双记忆结构，并同时引入 MoMani 这一自动化 benchmark，用于生成专家级多模态轨迹和真实机器人 demonstrations。也就是说，从这一时期开始，长程任务已经不再只是 VLA 论文里的附加实验，而开始被当作一个独立且核心的问题来系统研究。

真正到 2026 年初，这一方向几乎在短时间内集中爆发。首先出现的是一批围绕“如何给 VLA 加记忆”的代表性工作。[CVPR2026]OptimusVLA (https://cybertronagent.github.io/OptimusVLA.github.io/)提出了 dual-memory 结构，其中 Global Prior Memory 负责从相似轨迹中检索任务级先验，Local Consistency Memory 则建模已执行动作序列，用于推断任务进度并增强局部轨迹一致性。它的意义在于说明：长程任务中的记忆不只是“多看几帧历史图像”，而需要同时处理全局任务先验与局部执行一致性。

随后，Physical Intelligence研究团队提出MEM（Multi-Scale Embodied Memory:MEM: Multi-Scale Embodied Memory for Vision Language Action Models）又进一步把这一思路推进为真正的多尺度记忆框架：它将短期视频记忆与长期语言记忆结合起来，前者用于处理遮挡、短时状态变化和局部视觉跟踪，后者则用于压缩并保留任务级语义阶段信息，使机器人能够完成长达 15 分钟 的厨房清理和做三明治这类复杂任务。相比单纯增加 observation window，这类方法已经开始明确区分“短期感知记忆”和“长期语义记忆”的不同角色。

与此同时，另一条快速崛起的路线，则是把问题从“记忆增强”进一步扩展到“Agent 化推理与执行纠错”。这类工作认为，单纯增强 policy 的历史建模能力仍然不够，因为很多长程任务失败并不是由于短时记忆缺失，而是因为模型无法判断何时该切换子任务、何时该补上缺失的过渡步骤、何时该停止当前动作并触发恢复机制。基于这种认识，RoboClaw[RoboClaw: An Agentic Framework for Scalable Long-Horizon Robotic Tasks]则试图把数据采集、策略学习和长程任务执行统一在一个 VLM 驱动的 agentic framework 之中，从而减少多策略流水线中的人工重置和 brittle execution。也就是说，这一阶段的研究已经不再满足于“让 policy 记住过去”，而开始要求系统能够主动推断“接下来应该做什么”以及“当出了错时该如何补救”。

伴随着这批模型与框架的集中出现，一批专门面向长程任务与记忆能力的 benchmark 也在这一时期迅速形成。其中，RMBench[RMBench]于2026 年 3 月提出，其定位非常明确：它不再满足于评估一般意义上的语言条件 manipulation，而是专门聚焦于 memory-dependent robotic manipulation。为此，RMBench 设计了 9 个任务，并按照不同的记忆复杂度进行分层，系统考察模型在历史依赖、计数、阶段推断以及部分可观测信息处理等方面的能力。它的重要性在于，社区第一次拥有了一个明确围绕“记忆”本身来设计的机器人 benchmark，也使得“长程任务中的记忆缺失”不再只是现象描述，而成为可以被系统测试和量化分析的研究问题。

同样是在2026 年 3 月，RoboMME[RoboMME Task Examples]将 memory benchmark 做得更系统：它构建了 16 个 manipulation tasks，并按 temporal、spatial、object、procedural memory 四种记忆类型建立 taxonomy，用于专门分析不同记忆表示、不同接入方式对 VLA 性能的影响。相较于 RMBench 更强调“memory-dependent tasks”的存在，RoboMME更像是在回答另一个问题：到底什么类型的记忆更重要，什么样的记忆机制更适合什么样的任务。

四、VLA双臂具身的数据范式与相关基础设施

（一）VLA领域繁多的数据格式

虽然目前 VLA 领域的数据集数量已经明显增多，但机器人数据与图像数据有本质区别，因此很难像ImageNet那样迅速收敛到一个单一、统一、几乎被全行业接受的标准格式。VLA 数据具有更强的异构性，它不仅包含图像，还往往同时包含多视角视频流、机器人本体状态、动作序列、语言指令、时间戳、相机标定信息，乃至奖励、任务阶段标签和遥操作元数据，正因为如此，数据格式本身已经不只是“怎么存文件”的工程细节，而是直接关系到数据能否被共享、能否被复用、能否被转换、能否被大规模训练管线稳定读取的基础问题。

与此同时，VLA 领域的发展速度又非常快，模型范式、训练框架和数据来源都在迅速变化，导致数据组织结构并没有完全跟上模型发展的节奏。早期很多数据集更多是围绕具体实验室、具体平台和具体任务设计的，因此格式往往具有很强的项目局部性；而当研究逐渐走向跨机器人、跨任务、跨本体训练之后，原有这些“能用但不通用”的格式就开始暴露出兼容性差、元信息不统一、转换成本高等问题。也正因如此，数据格式问题在 VLA 领域并不是一个边缘性的工程问题，而是决定开放生态能否真正形成的重要基础设施问题。

（二）主流数据组织格式与适用场景

从当前实践来看，VLA 相关数据大致可以归纳为三类主流组织方式，分别对应不同的发展阶段和使用场景。

第一类是 HDF5：HDF5本身并不是机器人领域专属格式，而是一种通用的分层数据格式，强调高性能存储、层级组织与快速 I/O。它的优点是结构直观、单文件管理方便、读写接口成熟，因此在早期模仿学习和实验室自采机器人数据中被大量使用。尤其是在 ALOHA/ACT 这一类双臂示教体系中，社区长期习惯使用 HDF5 风格的 episode 存储方式来保存图像、状态与动作序列。它非常适合中小规模、自定义程度高的数据采集流程，但缺点也很明显：不同项目之间的字段命名、层级结构和元信息习惯差异很大，跨数据集整合和标准化复用的成本较高，松灵、RoboTwin、Aloha乃至于RDT-1B的自采数据虽然都是采用的HDF5作为数据格式，但是其内部的字段却也都各不相同

############## 松灵Aloha机器人数据格式 ################
===== HDF5 Structure =====
[DATASET] action  shape=(200, 14)  dtype=float32
[DATASET] base_action  shape=(200, 2)  dtype=float32
[GROUP]   observations
[DATASET] observations/effort  shape=(200, 14)  dtype=float32
[GROUP]   observations/images
[DATASET] observations/images/cam_high  shape=(200, 480, 640, 3)  dtype=uint8
[DATASET] observations/images/cam_left_wrist  shape=(200, 480, 640, 3)  dtype=uint8
[DATASET] observations/images/cam_right_wrist  shape=(200, 480, 640, 3)  dtype=uint8
[DATASET] observations/qpos  shape=(200, 14)  dtype=float32
[DATASET] observations/qvel  shape=(200, 14)  dtype=float32
=========================================
############## RDT-HDF5 数据格式 ################
===== HDF5 Structure =====
[DATASET] action  shape=(221, 14)  dtype=float32
[GROUP]   observations
[GROUP]   observations/images
[DATASET] observations/images/cam_high  shape=(221,)  dtype=|S74151
[DATASET] observations/images/cam_left_wrist  shape=(221,)  dtype=|S74564
[DATASET] observations/images/cam_right_wrist  shape=(221,)  dtype=|S62350
[DATASET] observations/left_arm_dim  shape=(221,)  dtype=int64
[DATASET] observations/qpos  shape=(221, 14)  dtype=float32
[DATASET] observations/right_arm_dim  shape=(221,)  dtype=int64
========================================

第二类是 RLDS。RLDS 的全称是 Reinforcement Learning Datasets，它本质上是一套围绕 sequential decision making 设计的数据生态，核心思想是以 episode—step 的方式组织数据，把 observation、action、reward、discount、metadata 等字段统一到一个更适合序列决策学习的接口中。对于机器人学习来说，RLDS 的最大价值不在于“压缩率更高”或者“存储更省空间”，而在于它天然适合多任务、多本体、跨数据源的数据整合。Open X-Embodiment 之所以能够把大量异构机器人轨迹统一到同一个生态中，一个关键原因就是它采用了 RLDS 这一层抽象。也就是说，RLDS 更像是一种面向“数据互通和大规模联合训练”的组织规范，而不只是一个简单文件格式

第三类是 LeRobotDataset。如果说 HDF5 更像是“实验室自定义数据容器”，RLDS 更像是“开放机器人轨迹标准”，那么 LeRobotDataset 则代表了更接近当下开源训练生态的一种工程化统一方案。根据 Hugging Face 官方说明，LeRobotDataset 目前采用的是 Parquet + MP4（或图像）+ 元数据文件 的组织方式，目标是以统一接口承载多模态时间序列数据、多相机视频、传感器读数和动作信息，并直接支持在 Hugging Face Hub 上进行存储、流式读取、可视化与检索。它特别适合今天这种“数据集需要在线共享、需要被不同 policy 直接读取、需要和训练框架紧密耦合”的新型工作流。相比传统 HDF5，LeRobot 更强调的是标准化、可扩展性和与现代开源工具链的无缝连接，但是其本身在短短一年多的时间里又经过多次迭代，直至目前还没有完全确定文件数据组织的最终结构...

（三）LeRobot 框架：从数据到策略训练的统一开源工具链

LeRobot[LeRobot - Hugging Face 文档]是一个面向真实机器人的开源工具链，主要覆盖数据采集、数据集管理、策略训练、模型评测和真实部署推理等环节。它建立在 PyTorch 生态之上，并与 LeRobotDataset 和 Hugging Face Hub 配套使用，形成统一的数据读取、训练和部署流程。整体上，LeRobot 更偏向机械臂和真实机器人场景下的数据—训练—部署一体化框架。

（四）RLinf:为具身智能和智能体而生的强化学习框架)

RLinf[GitHub - RLinf/RLinf: RLinf: Reinforcement Learning Infrastructure for Embodied and Agentic AI]是一个面向 embodied AI 与 agentic AI 的强化学习基础设施，主要用于支持大模型在具身任务中的强化学习训练与后训练。它强调可扩展的训练系统设计，适合承接 VLA、VLM、LLM 等模型的 RL 优化流程。随着 SimpleVLA-RL、VLA-RL 等路线的出现，RLinf 所代表的，不只是一个新的代码仓库，而是 VLA 训练范式从“监督微调为主”进一步走向“后训练与强化学习并重”的基础设施信号。

（五）StarVLA:一个用于VLA模型开发的乐高式代码库

StarVLA[GitHub - starVLA/starVLA: StarVLA: A Lego-like Codebase for Vision-Language-Action Model Developing]是一个面向 VLA 研究的统一代码平台，采用模块化设计，支持异构数据接入、不同 backbone、不同 action head 以及不同 VLA 架构的训练与部署。它更像一个面向研究开发和实验复现的通用框架，用来统一组织当前较为分散的 VLA 代码流程

五、以RDT-1B&RoboTwin为例动手实践双臂VLA

~~虽然RDT-1B以2026年的眼光来看已经“Out”了，但他的代码结构足够简洁，模型架构足够清晰，因此非常适合作为VLA的入门尝试...~~

附录1：具身智能概念简述：强化学习RL VS 模仿学习IL VS 迁移学习TL

强化学习 Reinforcement Learning

强化学习是一种通过智能体（Agent）与环境（Environment****）不断交互来学习决策策略的方法，我们可以简单的理解为一个“边试边学”的过程。

在这一过程中，智能体并不是一开始就知道“正确答案”是什么，而是从零开始，通过不断尝试不同的动作来学习如何完成任务。在每一个时刻，智能体会根据当前所处的状态（State）选择一个动作（Action）；环境在接收到该动作后，会反馈一个奖励（Reward），并进入新的状态（New State）。智能体的目标并不是只追求某一步的即时收益，而是通过不断试错与探索，最终学习到一套能够最大化长期累计奖励的策略（Policy）。

我们以下面的马里奥为例来讲述强化学习，图中的游戏画面就是当前的状态（State），右侧所示的“向左、向右、向上跳”等操作就是可执行的动作（Action），而马里奥本身就是智能体****（Agent）。在面对当前画面时，智能体需要根据自己的策略（Policy）决定下一步应该采取什么动作，例如是继续向右移动，还是选择跳跃来避开障碍物。因此，强化学习的核心循环可以概括为：智能体观察当前状态（State）→ 根据策略（Policy）选择动作（Action）→ 环境反馈奖励（Reward）并转移到新状态（New State）→ 智能体根据奖励更新策略。这个过程会不断重复，智能体也会在反复试错中逐步学会在不同状态下做出更优决策。最终，强化学习希望得到的是一套最优策略，使智能体从任务开始到结束的**累计奖励期望最大化。

模仿学习 Imitation Learning

模仿学习（Imitation Learning，IL）是一种通过学习专家示范行为来完成任务的机器学习方法。它的核心思想非常直观：不是让智能体从零开始自己摸索，而是先让它观察“专家是怎么做的”，再去学习和复现这些行为。

之所以在具身智能中尤其强调模仿学习，根本原因在于：具身智能面对的是物理世界，而物理世界中的学习成本远高于纯数字环境。 机器人需要通过感知、决策和动作去完成真实任务，例如开门、倒水、叠衣服、整理桌面或进行双臂协作装配。这类任务看似自然，但训练起来通常会遇到两个非常现实的问题：

首先便是奖励函数设计困难，传统的机器人运动控制可以依赖奖励信号的交互设计来通过强化学习指导什么行为什么步态是好的，但是到了具身双臂领域我们很难通过一个数学公式去量化去定义一个实际交互任务，比如什么叫“把衣服叠得整齐”？什么叫“平稳地给人倒一杯水”？什么叫“双臂协作得自然且安全”？这些标准往往带有很强的主观性、过程性和上下文依赖性只要奖励设计稍有偏差，机器人就有可能学会一些表面上得分很高、但实际上并不符合任务目标的“捷径”行为，这就是所谓的 reward hacking，而模仿学习绕开了这个问题：它不去费力定义“什么是好”，而是直接通过专家示范告诉模型“什么样的行为就是好的”。其次第二个问题是便是策略的探索空间过大，真实试错代价过高，如果让机器人从零开始，通过随机尝试来学会开门、插线、折衣服或完成双臂协作任务，那么它可能需要极其庞大的试错次数才能逐渐摸索出有效策略。对于仿真环境来说，这种高频试错或许还能接受；但在真实物理世界里，时间、能源、硬件损耗以及安全风险都使这种方式变得非常不现实。尤其对于双臂机器人而言，随机探索不仅效率极低，还可能因为碰撞、夹持失败或轨迹失控而带来更大的执行风险。

正因为如此，模仿学习在具身智能中具有非常自然的优势。我们可以通过提供高质量的专家演示，模仿学习能够显著缩小机器人的探索范围，使学习过程从一个较高的起点开始，而不是从“完全不会”出发反复试错。这本质上提高了训练的样本效率，也更符合真实机器人系统对稳定性、安全性和训练成本的要求。

迁移学习 Transfer Learning

迁移学习（Transfer Learning，TL）是一种把模型在已有任务上学到的知识，迁移到新的相关任务中的机器学习方法。它的核心思想是：面对一个新任务时，模型不必每次都从零开始训练，而是可以先利用在其他任务、其他数据集甚至其他领域中已经学到的知识，再在新任务上继续适配和优化。

如果用一个更直观的例子来理解，迁移学习就像一个学厨艺的过程。一个人不可能一开始就被丢进厨房，从“如何生火、如何分辨盐和糖”开始，完全靠自己摸索，最后做出一道复杂名菜。更现实的方式是，先掌握一些通用基础能力，例如刀工、火候、调味和食材处理；在此基础上，再去学习某一种具体菜系，比如法餐、意餐或中餐。因为已经具备了前面的基础能力，所以学习新菜系会明显更快，也更容易达到较高水平。对于机器学习模型来说，这种“先学通用能力，再迁移到具体任务”的过程，就是迁移学习。对于具身智能和 VLA 而言，迁移学习尤其重要。因为真实机器人数据昂贵、稀缺且采集困难，如果每一个新任务、每一个新机器人平台都从头训练一个模型，不仅成本极高，而且训练效率极低。因此，当前很多 VLA 模型都会先在大规模互联网图文数据、通用机器人轨迹数据或多机器人联合数据上预训练，再把这些能力迁移到特定的机器人、本体平台或具体任务上。换句话说，迁移学习在具身智能中承担的作用，就是让模型能够“先学会通用能力，再快速适配新环境、新任务和新硬件”。

附录2：双臂具身入门必读经典VLA论文

VLA双臂具身模型类

RT-1：RT-1: Robotics Transformer for Real-World Control at Scale

RT-2：RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control

RT-Trajectory：RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches

Octo：Octo: An Open-Source Generalist Robot Policy

RT-X：Open X-Embodiment: Robotic Learning Datasets and RT-X Models

OpenVLA：OpenVLA: An Open-Source Vision-Language-Action Model

TinyVLA：TinyVLA: Towards Fast, Data-Efficient Vision-Language-Action Models for Robotic Manipulation

RDT-1B：RDT-1B: a Diffusion Foundation Model for Bimanual Manipulation

DP：Diffusion Policy: Visuomotor Policy Learning via Action Diffusion

DP3：3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations

OpenVLA-OFT：Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success

π0：$π_0$: A Vision-Language-Action Flow Model for General Robot Control

π0.5：$π_{0.5}$: a Vision-Language-Action Model with Open-World Generalization

π0.6：$π^{*}_{0.6}$: a VLA That Learns From Experience

Diffusion-VLA：Diffusion-VLA: Generalizable and Interpretable Robot Foundation Model via Self-Generated Reasoning

VLA-Adapter：VLA-Adapter: An Effective Paradigm for Tiny-Scale Vision-Language-Action Model

SimpleVLA-RL：SimpleVLA-RL: Scaling VLA Training via Reinforcement Learning

RDT2：RDT2: Exploring the Scaling Limit of UMI Data Towards Zero-Shot Cross-Embodiment Generalization

UniVLA：UniVLA: Learning to Act Anywhere with Task-centric Latent Actions

SpatialVLA：SpatialVLA: Exploring Spatial Representations for Visual-Language-Action Model

LingBotVLA：github.com

双臂具身VLA—Benchmark类

RoboTwin2.0：RoboTwin 2.0: A Scalable Data Generator and Benchmark with Strong Domain Randomization for Robust Bi

Libero：LIBERO: Benchmarking Knowledge Transfer for Lifelong Robot Learning

RMBench：RMBench: Memory-Dependent Robotic Manipulation Benchmark with Insights into Policy Design

RoboChallenge：RoboChallenge

RoboMME：RoboMME: Benchmarking and Understanding Memory for Robotic Generalist Policies

VLABench：VLABench: A Large-Scale Benchmark for Language-Conditioned Robotics Manipulation with Long-Horizon R

WorldArena：WorldArena: A Unified Benchmark for Evaluating Perception and Functional Utility of Embodied World M

具身智能通用基座大模型类

HoloBrain-0：HoloBrain-0 Technical Report

InternVLA-A1：InternVLA-A1: Unifying Understanding, Generation and Action for Robotic Manipulation

EO-1：EO-1: An Open Unified Embodied Foundation Model for General Robot Control

GigaBrain-0：GigaBrain-0: A World Model-Powered Vision-Language-Action Model

文章来源:https://www.cnblogs.com/SkyXZ/p/19856410
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系邮箱：jacktools123@163.com进行投诉反馈，一经查实，立即删除！

标签：

上一篇：基于HelixToolkit.SharpDX 渲染3D模型
下一篇：没有了

首页 > 基础资料博客日记

从零开始的双臂具身VLA起源及现阶段发展综述

一、从大语言模型到具身智能的范式跃迁

二、VLA的起源与早期双臂协作困境：RT系列的开创与局限

三、VLA双臂具身的阶段式发展

（一）阶段一：从 RT 范式到开放通用基座

（二）阶段二：打破数据枯竭与仿真平台的大规模崛起

（三）阶段三：VLA研究爆发与多种训练范式的涌现

（四）阶段四：真机复现瓶颈与真机评测基准的建立

（五）阶段五：突破时间感知——长程任务规划与多尺度记忆机制

四、VLA双臂具身的数据范式与相关基础设施

（一）VLA领域繁多的数据格式

（二）主流数据组织格式与适用场景

（三）LeRobot 框架：从数据到策略训练的统一开源工具链

（四）RLinf:为具身智能和智能体而生的强化学习框架)

（五）StarVLA:一个用于VLA模型开发的乐高式代码库

五、以RDT-1B&RoboTwin为例动手实践双臂VLA

附录1：具身智能概念简述：强化学习RL VS 模仿学习IL VS 迁移学习TL

强化学习 Reinforcement Learning

模仿学习 Imitation Learning

迁移学习 Transfer Learning

附录2：双臂具身入门必读经典VLA论文

VLA双臂具身模型类

双臂具身VLA—Benchmark类

具身智能通用基座大模型类

相关文章

最新发布

点击排行

本站推荐

标签云

首页 > 基础资料 博客日记

从零开始的双臂具身VLA起源及现阶段发展综述

一、从大语言模型到具身智能的范式跃迁

二、VLA的起源与早期双臂协作困境：RT系列的开创与局限

三、VLA双臂具身的阶段式发展

（一）阶段一：从 RT 范式到开放通用基座

（二）阶段二：打破数据枯竭与仿真平台的大规模崛起

（三）阶段三：VLA研究爆发与多种训练范式的涌现

（四）阶段四：真机复现瓶颈与真机评测基准的建立

（五）阶段五：突破时间感知——长程任务规划与多尺度记忆机制

四、VLA双臂具身的数据范式与相关基础设施

（一）VLA领域繁多的数据格式

（二）主流数据组织格式与适用场景

（三）LeRobot 框架：从数据到策略训练的统一开源工具链

（四）RLinf:为具身智能和智能体而生的强化学习框架)

（五）StarVLA:一个用于VLA模型开发的乐高式代码库

五、以RDT-1B&RoboTwin为例动手实践双臂VLA

附录1： 具身智能概念简述：强化学习RL VS 模仿学习IL VS 迁移学习TL

强化学习 Reinforcement Learning

模仿学习 Imitation Learning

迁移学习 Transfer Learning

附录2：双臂具身入门必读经典VLA论文

VLA双臂具身模型类

双臂具身VLA—Benchmark类

具身智能通用基座大模型类

相关文章

最新发布

点击排行

本站推荐

标签云

首页 > 基础资料博客日记

附录1：具身智能概念简述：强化学习RL VS 模仿学习IL VS 迁移学习TL