DexFlyWheel: A Scalable and Self-improving Data Generation Framework for Dexterous Manipulation

高质量的灵巧操作数据集至关重要，数据稀缺，提出 DexFlyWheel，一个用于灵巧操作的可扩展、自我改进的数据生成框架。

DexFlyWheel-intro

快速阅读

DexFlyWheel-overview

它的终极目标非常明确：仅仅需要人类演示一次动作（比如抓起一个杯子），系统就能自动在模拟环境里“变”出成千上万条不同场景、不同物体的高质量数据，用来训练机器人。

换句话说就是从单一任务单一场景 -> 多任务多场景。

第一阶段是预热，首先，人类戴上 VR 设备，远程控制机器人完成一次任务（比如抓取），录下这一条珍贵的“种子演示”数据。系统把这条数据放进一个“增强模块”里。在这个模拟器里，系统会给这个动作换换背景、改改光照、挪动一下物体的位置，从而把 1 条数据“裂变”成了最初的一批数据集。（这里换了场景）

第二阶段就是飞轮，看在一个循环中，先用预热的数据训练模型，数据量比原来大，模型更聪明了，然后把它丢在虚拟环境中，让它换上各种各样没见过的新物体让它去挑战，成功完成的过程被录制下来作为新的高质量数据（这里换任务）。至此一个循环结束。

再就是在训练时有一个trick，为了让模型可以更快的适应新任务，有一个“残差强化学习”策略。

数据变多 -> 模型变聪明 -> 模型能搞定更多新物体 -> 产生更多新数据

DexFlyWheel: A Scalable and Self-improving Data Generation Framework for Dexterous Manipulation