Accepted Papers

Bootstrapping Object-level Planning with Large Language Models
Generative Task and Motion Planning via Compositional Diffusion
TAPAS: Task-based Adaptation and Planning using Agents
Intent at a Glance: Gaze-Guided Robotic Manipulation via Foundation Models
Trajectory Generation using Vision Language Models for Mapless Navigation
From Foresight to Forethought: VLM-In-the-Loop Policy Steering via Latent Alignment
AuDeRe: Automated Strategy Decision and Realization in Robot Planning and Control via LLMs
Guiding Data Collection via Factored Scaling Curves
Deep Reactive Policy: Learning Reactive Manipulator Motion Planning for Dynamic Environments
Lang2LTL-2: Grounding Spatiotemporal Navigation Commands Using Large Language and Vision-Language Models
Let Humanoids Hike! Integrative Skill Development on Complex Trails
DemoGen: Synthetic Demonstration Generation for Data-Efficient Visuomotor Policy Learning
CuriousBot: Interactive Mobile Exploration via Actionable 3D Relational Object Graph
BEAST: Efficient Tokenization of B-Splines Encoded Action Sequences for Imitation Learning
Hi Robot: Open-Ended Instruction Following with Hierarchical Vision-Language-Action Models
VERDI: VLM-Embedded Reasoning for Autonomous Driving
Touch begins where vision ends: Generalizable policies for contact-rich manipulation
Dexonomy: Synthesizing All Dexterous Grasp Types in a Grasp Taxonomy
GRIM: Task-Oriented Grasping with Conditioning on Generative Examples
Collision- and Reachability-Aware Multi-Robot Control with Grounded LLM Planners
Distilling On-device Language Models for Robot Planning with Minimal Human Intervention
Finding 3D Scene Analogies with Multimodal Foundation Models
GENIE: A Generalizable Navigation System for In-the-Wild Environments
LaMMA-P: Generalizable Multi-Agent Long-Horizon Task Allocation and Planning with LM-Driven PDDL Planner
Seeing is Believing: Planning to Perceive with Foundation Models and Act Under Uncertainty
Can Pretrained Vision-Language Embeddings Alone Guide Robot Navigation?
WoMAP: World Models For Embodied Open-Vocabulary Object Localization
SLAM-Free Semantic Object Exploration with Hierarchical Vision-Language Perception
A Steerable Vision-Language-Action Framework for Autonomous Driving
Hierarchical Vision-Language Planning for Multi-Step Humanoid Manipulation

Page updated

Report abuse