Publications

Note: An overview of my publications is also available in Google Scholar and DBLP.

Publications are listed in reverse chronological order. Click on the name of the publication to view the full paper. These papers are made available for personal use only, subject to author's and publisher's copyright.

2025

Open-YOLO 3D: Towards Fast and Accurate Open-Vocabulary 3D Instance Segmentation.

Mohamed El Amine Boudjoghra, Angela Dai, Jean Lahoud, Hisham Cholakkal, Rao Muhammad Anwer, Salman H. Khan, Fahad Shahbaz Khan.

International Conference on Learning Representations (ICLR), Singapore 2025. (Oral) (Code)

One-Prompt-One-Story: Free-Lunch Consistent Text-to-Image Generation Using a Single Prompt.

Tao Liu, Kai Wang, Senmao Li, Joost van de Weijer, Fahad Shahbaz Khan, Shiqi Yang, Yaxing Wang, Jian Yang, Ming-Ming Cheng.

International Conference on Learning Representations (ICLR), Singapore 2025. (Spotlight) (Code)

ZERODIFF: SOLIDIFIED VISUAL-SEMANTIC CORRELATION IN ZERO-SHOT LEARNING.

Zihan Ye, Shreyank N Gowda, Shiming Chen, Xiaowei Huang, Haotian Xu, Fahad Shahbaz Khan, Yaochu Jin, Kaizhu Huang, Xiaobo Jin.

International Conference on Learning Representations (ICLR), Singapore 2025. (Code)

AdaIR: Adaptive All-in-One Image Restoration via Frequency Mining and Modulation.

Yuning Cui, Syed Waqas Zamir, Salman Khan, Alois Knoll, Mubarak Shah, Fahad Shahbaz Khan.

International Conference on Learning Representations (ICLR), Singapore 2025. (Code)

INTERLCM: LOW-QUALITY IMAGES AS INTERMEDI- ATE STATES OF LATENT CONSISTENCY MODELS FOR EFFECTIVE BLIND FACE RESTORATION.

Senmao Li, Kai Wang, Joost van de Weijer, Fahad Shahbaz Khan, Chun-Le Guo, Shiqi Yang, Yaxing Wang, Jian Yang, Ming-Ming Cheng.

International Conference on Learning Representations (ICLR), Singapore 2025. (Code)

2024

VideoGrounding-DINO: Towards Open-Vocabulary Spatio-Temporal Video Grounding.

Syed Talal Wasim, Muzammal Naseer, Salman Khan, Ming-Hsuan Yang, Fahad Shahbaz Khan.

IEEE Conference on Computer Vision and Pattern Recognition (CVPR), USA, 2024. (Code)

Rethinking Transformers Pre-training for Multi-Spectral Satellite Imagery.

Mubashir Noman, Muzammal Naseer, Hisham Cholakkal, Rao Muhammad Anwer, Salman Khan, Fahad Shahbaz Khan.

IEEE Conference on Computer Vision and Pattern Recognition (CVPR), USA, 2024. (Code)

SED: A Simple Encoder-Decoder for Open-Vocabulary Semantic Segmentation.

Bin Xie, Jiale Cao, Jin Xie, Fahad Shahbaz Khan, Yanwei Pang.

IEEE Conference on Computer Vision and Pattern Recognition (CVPR), USA, 2024. (Code)

Self-Distilled Masked Auto-Encoders are Efficient Video Anomaly Detectors.

Nicolae-Catalin Ristea, Florinel-Alin Croitoru, Radu Tudor Ionescu, Marius Popescu, Fahad Shahbaz Khan, Mubarak Shah.

IEEE Conference on Computer Vision and Pattern Recognition (CVPR), USA, 2024. (Code)

GLaMM: Pixel Grounding Large Multimodal Model.

Hanoona Rasheed, Muhammad Maaz, Sahal Shaji, Abdelrahman Shaker, Salman Khan, Hisham Cholakkal, Rao M. Anwer, Eric Xing, Ming-Hsuan Yang, Fahad Shahbaz Khan.

IEEE Conference on Computer Vision and Pattern Recognition (CVPR), USA, 2024. (Code)

Visual-Augmented Dynamic Semantic Prototype for Generative Zero-Shot Learning.

Wenjin Hou, Shiming Chen, Shuhuang Chen, Ziming Hong, Yan Wang, Xuetao Feng, Salman Khan, Fahad Shahbaz Khan, Xinge You.

IEEE Conference on Computer Vision and Pattern Recognition (CVPR), USA, 2024.

VSCode: General Visual Salient and Camouflaged Object Detection with 2D Prompt Learning.

Ziyang Luo, Nian Liu, Wangbo Zhao, Xuguang Yang, Dingwen Zhang, Deng-Ping Fan, Fahad Shahbaz Khan, Junwei Han.

IEEE Conference on Computer Vision and Pattern Recognition (CVPR), USA, 2024. (Code)

Composed Video Retrieval via Enriched Context and Discriminative Embeddings.

Omkar Thawakar, Muzammal Naseer, Rao Muhammad Anwer, Salman Khan, Michael Felsberg, Mubarak Shah, Fahad Shahbaz Khan.

IEEE Conference on Computer Vision and Pattern Recognition (CVPR), USA, 2024. (Code)

GeoChat: Grounded Large Vision-Language Model for Remote Sensing.

Kartik Kuckreja, Muhammad Sohail Danish, Muzammal Naseer, Abhijit Das, Salman Khan, Fahad Shahbaz Khan.

IEEE Conference on Computer Vision and Pattern Recognition (CVPR), USA, 2024. (Code)

Progressive Semantic-Guided Vision Transformer for Zero-Shot Learning.

Shiming Chen, Wenjin Hou, Salman Khan, Fahad Shahbaz Khan.

IEEE Conference on Computer Vision and Pattern Recognition (CVPR), USA, 2024.

2023

Boosting Adversarial Transferability using Dynamic Cues.

Muzammal Naseer, Ahmad Mahmood, Salman Khan, Fahad Shahbaz Khan.

International Conference on Learning Representations (ICLR), Rwanda 2023. (Code)

Self-regulating Prompts: Foundational Model Adaptation without Forgetting.

Muhammad Uzair Khattak, Syed Talal Wasim, Muzammal Naseer, Salman Khan, Ming-Hsuan Yang, Fahad Shahbaz Khan.

IEEE Conference on Computer Vision (ICCV), France, 2023. (Code)

SwiftFormer: Efficient Additive Attention for Transformer-based Real-time Mobile Vision Applications.

Abdelrahman Shaker, Muhammad Maaz, Hanoona Rasheed, Salman Khan, Ming-Hsuan Yang, Fahad Shahbaz Khan.

IEEE Conference on Computer Vision (ICCV), France, 2023. (Code)

Video-FocalNets: Spatio-Temporal Focal Modulation for Video Action Recognition.

Syed Talal Wasim, Muhammad Uzair Khattak, Muzammal Naseer, Salman Khan, Mubarak Shah, Fahad Shahbaz Khan.

IEEE Conference on Computer Vision (ICCV), France, 2023. (Code)

Multi-grained Temporal Prototype Learning for Few-shot Video Object Segmentation.

Nian Liu, Kepan Nan, Wangbo Zhao, Yuanwei Liu, Xiwen Yao, Salman Khan, Hisham Cholakkal, Rao Muhammad Anwer, Junwei Han, Fahad Shahbaz Khan.

IEEE Conference on Computer Vision (ICCV), France, 2023. (Code)

3D Instance Segmentation via Enhanced Spatial and Semantic Supervision.

Salwa Al Khatib, Mohamed El Amine Boudjoghra, Jean Lahoud, Fahad Shahbaz Khan.

IEEE Conference on Computer Vision (ICCV), France, 2023. (Code)

Generative Multiplane Neural Radiance for 3D-Aware Image Generation.

Amandeep Kumar, Ankan Kumar Bhunia, Sanath Narayan, Hisham Cholakkal, Rao Muhammad Anwer, Salman Khan, Ming-Hsuan Yang, Fahad Shahbaz Khan.

IEEE Conference on Computer Vision (ICCV), France, 2023. (Code)

PromptCAL: Contrastive Affinity Learning via Auxiliary Prompts for Generalized Novel Category Discovery.

Sheng Zhang, Salman Khan, Zhiqiang Shen, Muzammal Naseer, Guangyi Chen, Fahad Shahbaz Khan.