PaperAgent
DexFlyWheel: A Scalable and Self-improving Data Generation Framework for Dexterous Manipulation
高质量的灵巧操作数据集至关重要,数据稀缺,提出 DexFlyWheel,一个用于灵巧操作的可扩展、自我改进的数据生成框架。
Loading...
高质量的灵巧操作数据集至关重要,数据稀缺,提出 DexFlyWheel,一个用于灵巧操作的可扩展、自我改进的数据生成框架。


它的终极目标非常明确:仅仅需要人类演示一次动作(比如抓起一个杯子),系统就能自动在模拟环境里“变”出成千上万条不同场景、不同物体的高质量数据,用来训练机器人 。
换句话说就是从单一任务单一场景 -> 多任务多场景。
第一阶段是预热,首先,人类戴上 VR 设备,远程控制机器人完成一次任务(比如抓取),录下这一条珍贵的“种子演示”数据。系统把这条数据放进一个“增强模块”里。在这个模拟器里,系统会给这个动作换换背景、改改光照、挪动一下物体的位置,从而把 1 条数据“裂变”成了最初的一批数据集。(这里换了场景)
第二阶段就是飞轮,看在一个循环中,先用预热的数据训练模型,数据量比原来大,模型更聪明了,然后把它丢在虚拟环境中,让它换上各种各样没见过的新物体让它去挑战,成功完成的过程被录制下来作为新的高质量数据(这里换任务)。至此一个循环结束。
再就是在训练时有一个trick,为了让模型可以更快的适应新任务,有一个“残差强化学习”策略。
数据变多 -> 模型变聪明 -> 模型能搞定更多新物体 -> 产生更多新数据