Skip to content

Frog Soup: Zero-Shot, In-Context, and Sample-Efficient Frogger Agents

grok-3-latest
Score: 0.61
Published: at 19:51

Summary: 本文展示了推理型 LLM 在零样本 Atari 游戏 Frogger 中的潜力,并通过 LLM 示范数据提升传统 DQN 智能体 35.3% 的样本效率。

Keywords: LLM, Reinforcement Learning, Zero-Shot Learning, In-Context Learning, Sample Efficiency

Authors: Xiang Li, Yiyang Hao, Doug Fulop

Institution(s): Stanford University

Problem Background

强化学习(RL)领域的一个核心目标是开发通用智能体,能够快速适应并掌握新任务。 传统 RL 游戏智能体在 Atari 游戏中表现优异,但训练成本高、时间长,尤其是在稀疏奖励、探索挑战和长期规划需求的游戏(如 Frogger)中效率低下。 论文探索是否可以利用预训练的大型语言模型(LLM),特别是经过 RL 后训练的推理模型,在零样本(Zero-Shot)设置下直接玩 Atari 游戏,并通过上下文学习和示范数据加速传统 RL 智能体的训练。

Method

Experiment

Further Thoughts

LLM 与 RL 的结合展示了高层次策略指导与低层次控制互补的潜力,未来可探索动态调整 LLM 示范数据优先级以适应 RL 训练阶段需求;上下文学习对提示敏感,启发设计更鲁棒的提示框架或通过元学习优化上下文选择;反思型智能体失败提示引入细粒度反馈机制或结合蒙特卡洛树搜索(MCTS)以改进长期规划。