Group

Development and evaluation of agentic systems.

Interactions of small and large language models.

Benjamin Unger (Visiting Researcher, ETH)

Mean-field multi-agent RL.

A reduction from in-context-regression to reinforcement learning.

Ankur Samanta (Columbia & Meta)

Post-training on multi-agent debate; Self-localization of errors in language models.

Runzhe Wu (Cornell Tech)

Post-training with multiple reward functions.

Ben Kretzu (Technion)

Aligned multi-objective optimization.

Wenhao Zhan (Princeton)

Offline multi-agent reinforcement learning with small interaction-rank.

Reinforcement learning in latent Markov Decision Processes.

Manan Tomar (Microsoft)

Mirror-Descent Policy Optimization; Multi-step greedy deep reinforcement learning.

Page updated

Google Sites

Report abuse