Real-World Offline Reinforcement Learning from Vision Language Model Feedback

Sreyas Venkataraman∗, Yufei Wang∗, Ziyu Wang, Zackory Erickson†, David Held†

Submission to ICRA 2025

*Equal Contribution; †Equal Advising

Summary Video

icra-video-final.mp4

viper-gown-ours2249-2294.mp4

Offline RL-VLM-F (ours)

viper-gown-dp3-1705-1729.mp4

DP3 baseline

viper-green-ours-4525-4561.mp4

Offline RL-VLM-F (ours)

viper-green-dp3-3675-3719.mp4

DP3 baseline

viper-purple-ours-1143-1190.mp4

Offline RL-VLM-F (ours)

viper-purple-dp3-355-385.mp4

DP3 baseline

manikin-gown-ours-1370-1423.mp4

Offline RL-VLM-F (ours)

manikin-gown-dp3-838-895.mp4

DP3 baseline

manikin-purple-ours-1970-2027.mp4

Offline RL-VLM-F (ours)

manikin-purple-dp3-2480-2544.mp4

DP3 baseline

manikin-green-ours-1276-1321.mp4

Offline RL-VLM-F (ours)

manikin-green-dp3-1139-1182.mp4

DP3 baseline

Page updated

Report abuse