县网站建设,网站建设及优化方案,百度收录wordpress动态页面_收录伪静态页面就好了!,龙岩高风险地区前言
在此文《UMI——斯坦福刷盘机器人#xff1a;从手持夹持器到动作预测Diffusion Policy(含代码解读)》的1.1节开头有提到 机器人收集训练数据一般有多种方式#xff0c;比如来自人类视频的视觉演示 有的工作致力于从视频数据——例如YouTube视频中进行策略学习 即最常见…前言
在此文《UMI——斯坦福刷盘机器人从手持夹持器到动作预测Diffusion Policy(含代码解读)》的1.1节开头有提到 机器人收集训练数据一般有多种方式比如来自人类视频的视觉演示 有的工作致力于从视频数据——例如YouTube视频中进行策略学习 即最常见的方法是从各种被动的人类演示视频中学习利用被动的人类演示先前的工作学习了任务成本函数 [37, 8, 1, 21]、可供性函(affordance function) [2]、密集物体描述符[40, 24, 39]、动作对应 [33, 28] 和预训练的视觉表示 [23-R3m: A universal visual representation for robot manipulation,48-Masked visual pre-training for motor control]然而这种方法遇到了一些挑战 首先大多数视频演示缺乏明确的动作信息(这对于学习可推广的策略至关重要) 为了从被动的人类视频中推断动作数据先前的工作采用了手部姿态检测器 [44-Mimicplay: Long-horizon imitation learning by watching human play, 1-Human-to-robot imitation in the wild, 38-Videodex: Learning dexterity from internet videos, 28- Dexmv: Imitation learning for dexterous manipulation from human videos]或将人类视频与域内遥操作机器人数据结合以预测动作 [33, 20, 34, 28] 其次人类和机器人之间明显的embodiment(物理本体有的翻译为体现)差距阻碍了动作转移(the evident embodiment gap between humans and robots hinders action transfer) 弥合这一差距的努力包括通过手势重定向学习人类到机器人的动作映射 [38-Videodex: Learning dexterity from internet videos, 28-Dexmv: Imitation learning for dexterous manipulation from human videos] 或提取与体现无关的关键点 [即embodiment-agnostic keypoint49] 尽管有这些尝试固有的embodiment差异仍然使得从人类视频到物理机器人的策略转移变得复杂 考虑到「从人类视频中学习」早已成为机器人的主流训练方法之一故打算系统阐述以下这个课题不然很多朋友可能只是理解其字面意思但到底具体怎么个模仿学习则不一定知其里而通过本文系统的阐述可以让大家更深刻的理解模仿学习背后更深的细节
二方面上面不是提到了从人类视频学习中的诸多问题么那我们也看看该领域的最新进展——比如纽约大学的SeeDo到底有没解决这些问题呢
故便有了本文本文将注意解读以下这几篇paper
Learning by Watching: Physical Imitation of Manipulation Skills from Human Videos18 Jan 2021DexMV12 Aug 2021DexVIP1 Feb 2022Robotic Telekinesis: Learning a Robotic Hand Imitator by Watching Humans on YouTube21 Feb 2022R3M: Representations for Robots from Real-World Videos23 Mar 2022VideoDex8 Dec 2022MimicPlay24 Feb 2023 VLM See, Robot Do: Human Demo Video to Robot Action Plan via Vision Language Model11 Oct 2024 第一部分 从Learning by Watching、DexMV到DexVIP
1.1 Learning by Watching: Physical Imitation of Manipulation Skills from Human Videos
来自多伦多大学、天津大学、NVIDIA的研究者(Haoyu Xiong, Quanzhou Li, Yun-Chun Chen, Homanga Bharadhwaj, Samarth Sinha, Animesh Garg)发布了此篇论文《Learning by Watching: Physical Imitation of Manipulation Skills from Human Videos》 为了从人类视频中实现物理模仿作者将问题分解为一系列任务
人类到机器人的翻译基于无监督关键点的表示学习以及3使用强化学习进行物理模仿
在此回顾前两个任务因为他们的方法是在现有算法基础上构建的
1.1.1 无监督的图像到图像翻译到无监督关键点检测
对于无监督的图像到图像翻译问题
类似于现有的方法 [9], [10]将人类到机器人翻译视为无监督的图像到图像翻译问题
具体而言目标是学习一个模型将图像从源域X例如人类域翻译到目标域Y例如机器人域而无需配对的训练数据 [12],[26], [29], [30]在作者的方法中他们采用MUNIT [30] 作为图像到图像翻译网络来实现人类到机器人的翻译 MUNIT通过假设图像表示可以被解构为一个域不变的内容编码由内容编码器编码和一个域特定的风格编码由风格编码器编码来学习在两个域之间翻译图像 内容编码器和在两个域中是共享的而两个域的风格编码器和则不共享权重 为了将图像从一个域翻译到另一个域作者将其内容编码与从另一个域采样的风格编码结合 且这些翻译/转换是通过学习生成与目标域中的图像无法区分的图像来实现的(The translations are learned to generate images that are indistinguishable fromimages in the translated domain)
故给定来自源域X的图像x和来自目标域Y的图像y在源域中定义对抗性损失为
其中
是图像的内容编码是图像的风格编码是一个生成器其接收内容编码和风格编码作为输入并生成与源域中分布相似的图像是一个判别器旨在区分由生成的翻译图像和源域中的图像
此外目标域中对抗损失也可以类似地定义
除了对抗损失外MUNIT还对图像、内容和风格编码应用重构损失以规范模型学习
对于源域图像重构损失定义为内容重建损失定义为风格重建损失定义为
目标域中的图像重建损失、内容重建损失和风格重建损失可以类似地推导出来
最终训练MUNIT的总损失LMUNIT为 其中、和是用于控制各自损失函数相对重要性的超参数
对于无监督关键点检测
为了执行控制任务现有方法通常依赖于基于图像观测的状态表示学习[10], [45]–[48]
然而图像到图像翻译模型生成的图像观测通常只捕捉宏观特征而忽略了对下游任务至关重要的显著区域中的细节。通过使用特征编码器对翻译后的图像观测进行编码来推导状态表示会导致次优性能另一方面现有方法也可能受到图像到图像翻译模型生成的视觉伪影的影响
与这些方法相比作者利用Transporter[41]在无监督的方式下检测每个翻译后视频帧中的关键点。检测到的关键点形成一种结构化表示捕捉机器人手臂的姿态和交互物体的位置为下游控制任务提供语义上有意义的信息同时避免由于图像到图像翻译不完美而导致的视觉伪影的负面影响
为了实现无监督关键点检测的学习Transporter利用物体在一对视频帧之间的运动通过在检测到的关键点位置传输特征将一个视频帧转换为另一个视频帧
比如给定两个视频帧 和 Transporter首先使用特征编码器 提取两个视频帧的特征图和 并使用关键点检测器 检测两个视频帧的 K 个二维关键点位置和 然后Transporter 通过在和中抑制 在每个关键点位置附近的特征图并将 在 中每个关键点位置附近的特征图进行融合来合成特征图「Transporter then synthesizes the feature map Φ(x, y) by suppressing the feature map of x around eachkeypoint location in Ψ(x) and Ψ(y) and incorporating thefeature map of y around each keypoint location in Ψ(y)」 其中是一个高斯热图其峰值集中在中的每个关键点位置接下来传输的特征被传递到一个精细化网络R中以重建视频帧 然后定义用于训练Transporter的损失r为 在下一节中作者利用Transporter模型来检测每个翻译后的视频帧的关键点。检测到的关键点随后被用作定义奖励函数的结构化表示并作为策略网络的输入以预测用于与环境交互的动作
1.1.2 LbW从人类视频中学习的改进方法
考虑从人类视频中学习机器人操作技能的物理模仿任务。在这种情况下作者假设可以访问一个单一的人类演示视频长度为展示了一个人类执行特定任务例如推一个块的过程作者希望机器人从中学习其中是的空间大小
作者注意到人类的动作在他们的设定中并没有提供。故作者的目标是开发一种学习算法使机器人能够模仿人类演示视频中展示的人类行为
为实现这一目标作者提出了LbW一个由三个组件组成的框架
图像到图像的翻译网络「来自MUNIT [30]」关键点检测器「来自Transporter的关键点检测器[41]」策略网络
具体如下图所示 给定一个人类演示视频和时间的当前观测
首先对人类演示视频中的每一帧应用图像到图像的翻译网络并将翻译为机器人演示视频帧接下来关键点检测器将每个翻译后的机器人视频帧作为输入并提取基于关键点的表示 其中表示关键点的数量 同样也对当前观测应用关键点检测器以提取基于关键点的表示为了计算物理模仿的奖励作者定义了一个距离度量d用于计算当前观测的基于关键点的表示与每个翻译后的机器人视频帧的基于关键点的表示之间的距离we define adistance metric d that computes the distances between the keypoint-based representation zt of the current observationOt and each of the keypoint-based representations zEi of the translated robot video frames vE最后策略网络以当前观测的关键点表示作为输入预测一个动作该动作用于指导机器人与环境交互
// 待更
1.2 DexMV
21年8月份来自的研究者提出了DexMV其对应的论文为《DexMV: Imitation Learning for Dexterous Manipulation from Human Videos》
1.3 DexVIP