Accepted Papers

Accepted papers can also be read on OpenReview.

Non-Archival track:

Multi-Modal Interpretability for Enhanced Localization in Vision-Language Models

Muhammad Imran, Yugyung Lee

MMDU-Bench: Multi-modal Deep Unlearning Benchmark

GeoChain: Multimodal Chain-of-Thought for Geographic Reasoning

Nilay Pande, Sahiti Yerramilli, Jayant Sravan Tamarapalli, Rynaa Grover

HueManity: Probing Fine-Grained Visual Perception in MLLMs

Rynaa Grover, Jayant Sravan Tamarapalli, Sahiti Yerramilli, Nilay Pande

Commonsense Storage Reasoning in Domestic Scenes: A Challenge for Vision-Language Models

Michaela Levi Richter, Oren Glickman, Reuth Mirsky

ManeuverVLM: A Novel Multimodal Fusion of Scene Images and Temporal Signals for Maneuver Prediction

Roksana Yahyaabadi, Soodeh Nikan

Sparkle: Mastering Basic Spatial Capabilities in Vision Language Models Elicits Generalization to Spatial Reasoning

Yihong Tang, Ao Qu, Zhaokai Wang, Dingyi Zhuang, Zhaofeng Wu, Wei Ma, Shenhao Wang, Yunhan Zheng, Zhan Zhao, Jinhua Zhao

MET-Bench: Multimodal Entity Tracking for Evaluating the Limitations of Vision-Language and Reasoning Models

Vanya Cohen, Ray Mooney

Can Large Vision Language Models Understand Sarcasm?

Xinyu Wang, Yue Zhang

Page updated

Google Sites

Report abuse