1

Diffusion for World Modeling: Visual Details Matter in Atari

We introduce DIAMOND, an reinforcement learning agent trained in a diffusion world model. Presented at NeurIPS 2024 (Spotlight).

Eloi Alonso, Adam Jelley, Vincent Micheli, Anssi Kanervisto, Amos Storkey, Tim Pearce, François Fleuret

Diffusion for World Modeling: Visual Details Matter in Atari

Aligning Agents like Large Language Models

An investigation into training agents like Large Language Models (LLMs) by unsupervised pre-training, supervised fine-tuning, and finally reinforcement learning from human feedback (RLHF). Presented at RLBRew Workshop at RLC 2024.

Adam Jelley, Yuhan Cao, Dave Bignell, Sam Devlin, Tabish Rashid

Aligning Agents like Large Language Models

Efficient Offline Reinforcement Learning: The Critic is Critical

An approach for efficient offline reinforcement learning by first learning the behaviour policy and values with supervised learning, before improving on this policy with reinforcement learning. Presented at ARLET Workshop at ICML 2024.

Adam Jelley, Trevor McInroe, Sam Devlin, Amos Storkey

Efficient Offline Reinforcement Learning: The Critic is Critical

Contrastive Meta-Learning for Partially Observable Few-Shot Learning

An approach for meta-learning contrastive representations under partial observability. We demonstrate this approach can be utilised by reinforcement learning agents to learn a representation of their environment. Presented at ICLR 2023.

Adam Jelley, Amos Storkey, Antreas Antoniou, Sam Devlin

Contrastive Meta-Learning for Partially Observable Few-Shot Learning