Xiaohua Zhai (翟晓华)

About

I am currently a Researcher at Meta, Zürich.

Previously, I was a Member of Technical Staff at OpenAI (Zürich) and a Senior Staff Research Scientist & Tech Lead Manager at Google DeepMind, where I led a multimodal research group focused on data (WebLI), open weight models (SigLIP, PaliGemma) and inclusivity (DataBalancing, CultureDiversity).

Before that, I received my Ph.D. degree in Computer Science from Peking University in 2014.

Contact

✉ xiaohuazhai[at]gmail.com Twitter Linkedin

Selected Publications (Google Scholar)

Ibrahim Alabdulmohsin, Xiaohua Zhai, "Recursive Inference Scaling: A Winning Path to Scalable Inference in Language and Multimodal Systems", Advances in Neural Information Processing Systems (NeurIPS), 2025.

Lucas Beyer*^, Andreas Steiner*, André Susano Pinto*, Alexander Kolesnikov*, Xiao Wang*, Daniel Salz, Maxim Neumann, Ibrahim Alabdulmohsin, Michael Tschannen, Emanuele Bugliarello, Thomas Unterthiner, Daniel Keysers, Skanda Koppula, Fangyu Liu, Adam Grycner, Alexey Gritsenko, Neil Houlsby, Manoj Kumar, Keran Rong, Julian Eisenschlos, Rishabh Kabra, Matthias Bauer, Matko Bošnjak, Xi Chen, Matthias Minderer, Paul Voigtlaender, Ioana Bica, Ivana Balazevic, Joan Puigcerver, Pinelopi Papalampidi, Olivier Henaff, Xi Xiong, Radu Soricut, Jeremiah Harmsen, Xiaohua Zhai*^, "PaliGemma: A versatile 3B VLM for transfer", arXiv preprint arXiv:2407.07726, July 10th, 2024. (*=core team, ^=project lead) [Huggingface, Kaggle, Github, Blog]

Xiaohua Zhai*, Basil Mustafa, Alexander Kolesnikov, Lucas Beyer*, "Sigmoid Loss for Language Image Pre-Training", IEEE Conference on Computer Vision (ICCV), Paris, France, Oct 2-6, 2023. (*=equal contribution, Oral) [Colab, Huggingface, Github]

Xi Chen*, Xiao Wang*, Lucas Beyer*, Alexander Kolesnikov, Jialin Wu, Paul Voigtlaender, Basil Mustafa, Sebastian Goodman, Ibrahim Alabdulmohsin, Piotr Padlewski, Daniel Salz, Xi Xiong, Daniel Vlasic, Filip Pavetic, Keran Rong, Tianli Yu, Daniel Keysers, Xiaohua Zhai*^, Radu Soricutt^, "PaLI-3 Vision Language Models: Smaller, Faster, Stronger", arXiv preprint arXiv:2310.09199, Oct 17th, 2023. (*=core contributors, ^=project leads)

Xi Chen, Xiao Wang, Soravit Changpinyo, AJ Piergiovanni, Piotr Padlewski, Daniel Salz, Sebastian Goodman, Adam Grycner, Basil Mustafa, Lucas Beyer, Alexander Kolesnikov, Joan Puigcerver, Nan Ding, Keran Rong, Hassan Akbari, Gaurav Mishra, Linting Xue, Ashish Thapliyal, James Bradbury, Weicheng Kuo, Mojtaba Seyedhosseini, Chao Jia, Burcu Karagol Ayan, Carlos Riquelme, Andreas Steiner, Anelia Angelova, Xiaohua Zhai, Neil Houlsby, Radu Soricut, "PaLI: A Jointly-Scaled Multilingual Language-Image Model", International Conference on Learning Representations (ICLR), Kigali, Rwanda, May 1-5, 2023. [Blog]

Xiaohua Zhai*, Xiao Wang*, Basil Mustafa*, Andreas Steiner*, Daniel Keysers, Alexander Kolesnikov, Lucas Beyer*, "LiT🔥: Zero-Shot Transfer with Locked-image Text Tuning", IEEE Conference on Computer Vision and Pattern Recognition (CVPR), New Orleans, Louisiana, USA, June 21-24, 2022. (*=equal contribution)

Xiaohua Zhai*, Alexander Kolesnikov*, Neil Houlsby, Lucas Beyer*, "Scaling Vision Transformers", IEEE Conference on Computer Vision and Pattern Recognition (CVPR), New Orleans, Louisiana, USA, June 21-24, 2022. (*=equal contribution)

Lucas Beyer*, Xiaohua Zhai*, Amélie Royer*, Larisa Markeeva*, Rohan Anil, Alexander Kolesnikov*, "Knowledge distillation: A good teacher is patient and consistent", IEEE Conference on Computer Vision and Pattern Recognition (CVPR), New Orleans, Louisiana, USA, June 21-24, 2022. (*=equal contribution, Oral)

Alexey Dosovitskiy*, Lucas Beyer*, Alexander Kolesnikov*, Dirk Weissenborn*, Xiaohua Zhai*, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, Neil Houlsby*, "An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale", International Conference on Learning Representations (ICLR), May 4-7, 2021. (*=equal contribution, Oral) [GitHub, AI Blog]

Alexander Kolesnikov*, Lucas Beyer*, Xiaohua Zhai*, Joan Puigcerver, Jessica Yung, Sylvain Gelly and Neil Houlsby, "Big Transfer (BiT): General Visual Representation Learning", European Conference on Computer Vision (ECCV), Aug. 24-27, 2020. (*=equal contribution, Spotlight) [GitHub, AI Blog, TF Blog]

Xiaohua Zhai*, Joan Puigcerver*, Alexander Kolesnikov*, Pierre Ruyssen, Carlos Riquelme, Mario Lucic, Josip Djolonga, Andre Susano Pinto, Maxim Neumann, Alexey Dosovitskiy, Lucas Beyer, Olivier Bachem, Michael Tschannen, Marcin Michalski, Olivier Bousquet, Sylvain Gelly and Neil Houlsby, "A Large-scale Study of Representation Learning with the Visual Task Adaptation Benchmark", arXiv preprint arXiv:1910.04867, Oct 1st, 2019. (*=equal contribution) [GitHub, Blog]

Xiaohua Zhai*, Avital Oliver*, Alexander Kolesnikov* and Lucas Beyer*, "S4L: Self-Supervised Semi-Supervised Learning", International Conference on Computer Vision (ICCV), Oct. 27-Nov. 2, 2019. (*=equal contribution, Oral). [GitHub]

Alexander Kolesnikov*, Xiaohua Zhai* and Lucas Beyer*, "Revisiting Self-Supervised Visual Representation Learning", 32th IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Long Beach, CA, USA, June 16-20, 2019. (*=equal contribution) [GitHub]

Xiaohua Zhai, Yuxin Peng, and Jianguo Xiao, "Learning Cross-Media Joint Representation with Sparse and Semi-Supervised Regularization", IEEE Transactions on Circuits and Systems for Video Technology (TCSVT), Vol. 24, No. 6, pp. 965 - 978 , June 2014. (Regular Paper, SCI, IF 2016 = 3.599)
Xiaohua Zhai, Yuxin Peng, and Jianguo Xiao, "Heterogeneous Metric Learning with Joint Graph Regularization for Cross-Media Retrieval", AAAI Conference on Artificial Intelligence (AAAI), Bellevue, Washington, USA, July 14-18, 2013. (Oral)

Activities

Co-organizer of a half-day CVPR tutorial on "Beyond Convolutional Neural Networks", 2022.06.
Invited speaker at the 5th CVPR UG2+ challenge workshop, 2022.06.
Invited speaker at BAAI conference, 2022.06.
Co-organizer of NeurIPS workshop on ImageNet: past, present, and future, 2021.12.
Invited speaker at VALSE self-supervised learning workshop, 2021.10.
Invited speaker at BAAI conference, 2021.06.
Invited lecturer at CCF Advanced Disciplines Lectures (ADL), "Large-scale Visual Representation Learning", 2021.05.
Conference Reviewer: CVPR 2022, AAAI 2022, ICCV 2021, ICML 2021, CVPR 2021, ICLR 2021, NeurIPS 2020, ICML 2020, ECCV 2020, CVPR 2020, AAAI 2020, ACM-MM 2020, AAAI 2019, ACM-MM 2019, ACM-MM Asia 2019
Journal Reviewer: Journal of Machine Learning Research (JMLR), IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), IEEE Transactions on Neural Networks and Learning Systems (TNNLS), IEEE Transactions on Image Processing (TIP), IEEE Transactions on Multimedia (TMM)
The 14th CCF YOCSEF GS (China Computer Federation, Young Computer Scientists & Engineers Forum, Graduate Students), Chairman, 2012.07 – 2013.07

Google Sites

Report abuse