Skip to content

Coupled Distributional Random Expert Distillation for World Model Online Imitation Learning

grok-3-latest
Score: 0.48
Published: at 19:32

Summary: 本文提出基于密度估计的耦合分布随机专家蒸馏(CDRED)奖励模型,显著提升了世界模型在线模仿学习的稳定性和性能,成功应对了对抗性训练带来的挑战。

Keywords: Imitation Learning, World Model, Density Estimation, Reward Modeling, Latent Space

Authors: Shangzhe Li, Zhiao Huang, Hao Su

Institution(s): UNC Chapel Hill, Hillbot, University of California, San Diego

Problem Background

模仿学习(Imitation Learning, IL)在机器人、自动驾驶和医疗等领域通过专家演示学习复杂行为取得了显著成功,但现有方法在世界模型框架中依赖对抗性奖励或价值函数时,常常面临训练不稳定的问题,尤其是在高维任务或长期在线训练中,导致策略无法达到专家水平或性能下降。本文旨在通过基于密度估计的奖励模型替代对抗性方法,解决训练不稳定问题,同时保持专家级性能。

Method

Experiment

Further Thoughts

论文中在潜在空间构建奖励模型的思路启发了我,未来可以探索不同潜在空间表示对奖励估计的影响,例如是否可以通过自监督学习进一步优化潜在表示的动态感知能力;此外,耦合分布估计的概念可能适用于多专家或多任务学习场景,通过联合估计多个分布来提升泛化能力;最后,RND 替代对抗性训练的思想或许可以推广到其他需要稳定训练的领域,如生成模型或策略优化,减少优化过程中的不稳定性。