Jialiang Wang

I am a Principal Research Scientist at NVIDIA Spatial Intelligence Lab, working on generative world models and simulation research, based in Santa Clara, California. Before joining NVIDIA, I worked at Meta 2021-2025, first at Meta Reality Labs, developed ML stereo depth estimation systems shipped to Quest VR headsets and Ray-Ban Stories smart glasses, then at Meta Superintelligence Labs, where I trained media generation foundation models shipped across Meta AI and Meta's Family of Apps. I received my Ph.D. in Computer Science from Harvard University and my B.A.Sc from the University of Toronto.

Contact: jialiang.wang@alumni.harvard.edu / LinkedIn / Google Scholar

💻 Publications

2026

AlpaDreams: Real-Time Generative Closed-Loop Autonomous Vehicle Simulation Built on NVIDIA Cosmos
A. Basant, A. Kar, D. Paschalidou, G. G. Cobo, H. Turki, H. Ling, J. Seo, J. Wang, J. Lucas, J. Wu, J. Lorraine, J. Gao, K. He, K. Tothova, K. Xie, M. Tyszkiewicz, Q. Wu, R. de Lutio, R. Li, S. Fidler, S. W. Kim, T. Shen, T. Cao, T. Pfaff, W. Lew, X. Ren, Y. Lu, Z. Gojcic, Z. Wang (alphebatical)
NVIDIA Spatial Intelligence Lab, 2026
UniT: Unified Multimodal Chain-of-Thought Test-time Scaling
L. Chen, H. Ma, Z. Fan, Z. Huang, A. Sinha, X. Dai, J. Wang, Z. He, J. Yang, C. Li, J. Sun, C. Wang, S. Yeung-Levy, F. Juefei-Xu
CVPR, 2026

2025

PhyGDPO: Physics-Aware Groupwise Direct Preference Optimization for Physically Consistent Text-to-Video Generation
Y. Cai, K. Li, M. Jia, J. Wang, J. Sun, W. Chen, F. Juefei Xu, C. Wang, A. Thabet, X. Dai, X. Ju, A. Yuille, J. Hou
arXiv, 2025
Exploring MLLM-Diffusion Information Transfer with MetaCanvas
H. Lin, X. Pan, Z. Huang, J. Hou, J. Wang, W. Chen, Z. He, F. Juefei-Xu, J. Sun, Z. Fan, A. Thabet, M. Bansal, C. Wang
arXiv, 2025
Improving Chain-of-Thought Efficiency for Autoregressive Image Generation
Z. Gu, M. Georgopoulos, X. Dai, M. Ghazvininejad, C. Wang, F. Juefei-Xu, K. Li, Y. Shi, Z. He, Z. He, J. Zhou, A. Davis, J. Wang
arXiv, 2025
LinGen: Towards High-Resolution Minute-Length Text-to-Video Generation with Linear Computational Complexity
H. Wang, CY Ma, YC Liu, J. Hou, T. Xu, J. Wang, F. Juefei-Xu, Y. Luo, P. Zhang, T. Hou, P. Vajda, N. K. Jha, X. Dai
CVPR, 2025, [Extended journal version]
Learnings from Scaling Visual Tokenizers for Reconstruction and Generation
P. Hansen-Estruch, D. Yan, CY Chuang, O. Zohar, J. Wang, T. Hou, T. Xu, S. Vishwanath, P. Vajda, X. Chen
ICML, 2025
DirectorLLM for Human-Centric Video Generation
K. Song, T. Hou, Z. He, H. Ma, J. Wang, A. Sinha, S. Tsai, Y. Luo, X. Dai, L. Chen, X. Xia, P. Zhang, P. Vajda, A. Elgammal, F. Juefei-Xu
BMVC, 2025
Pixel-Space Post-Training of Latent Diffusion Models
C. Zhang, S. Motwaini, M. Yu, J. Hou, F. Juefei-Xu, S. Tsai, P. Vajda, Z. He, J. Wang
ACM-MM RichMedia Workshop, 2025
Transfer between Modalities with MetaQueries
X. Pan, S. N. Shukla, A. Singh, Z. Zhao, S. K. Mishra, J. Wang, Z. Xu, J. Chen, K. Li, F. Juefei-Xu, J. Hou, S. Xie
arXiv, 2025
Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models
X. Ma, P. Sun, H. Ma, H. Tang, CY Ma, J. Wang, K. Li, X. Dai, Y. Shi, X. Ju, Y. Hu, A. Sanakoyeu, F. Juefei-Xu, J. Hou, J. Tian, T. Xu, T. Hou, YC Liu, Z. He, Z. He, M. Feiszli, P. Zhang, P. Vajda, S. Tsai, Y. Fu
arXiv, 2025

2024

Movie Gen: A Cast of Media Foundation Models
The Movie Gen Team (Core contributor)
Meta AI Tech Report, 2024
Cache Me if You Can: Accelerating Diffusion Models through Block Caching
F. Wimbauer, B. Wu, E. Schoenfeld, X. Dai, J. Hou, Z. He, A. Sanakoyeu, P. Zhang, S. Tsai, J. Kohler, C. Rupprecht, D. Cremers, P. Vajda, J. Wang
CVPR, 2024
FlowVid: Taming Imperfect Optical Flows for Consistent Video-to-Video Synthesis
F. Liang, B. Wu, J. Wang, L. Yu, K. Li, Y. Zhao, I. Misra, JB Huang, P. Zhang, P. Vajda, D. Marculescu
CVPR, 2024
ControlRoom3D: Room Generation using Semantic Proxy Rooms
J. Schult, S. Tsai, L. Höllein, B. Wu, J. Wang, CY Ma, K. Li, X. Wang, F. Wimbauer, Z. He, P. Zhang, B. Leibe, P. Vajda, J. Hou
CVPR, 2024
Efficient Quantization Strategies for Latent Diffusion Models
Y. Yang, X. Dai, J. Wang, P. Zhang, H. Zhang
CVPR workshop on Efficient and On-Device Generation, 2024
An Analysis on Quantizing Diffusion Transformers
Y. Yang, J. Wang, X. Dai, P. Zhang, H. Zhang
CVPR workshop on Transformers for Vision, 2024

2023

Emu: Enhancing Image Generation Models Using Photogenic Needles in a Haystack
X. Dai∗, J. Hou∗, CY Ma∗, S Tsai∗, J. Wang∗, R. Wang∗, P. Zhang∗, S. Vandenhende, X. Wang, A. Dubey, M. Yu, A. Kadian, F. Radenovic, D. Mahajan, K. Li, Y. Zhao, V. Petrovic, M. K. Singh, S. Motwani, Y. Wen, Y. Song, R. Sumbaly†, V. Ramanathan†, Z. He†, P. Vajda†, D. Parikh†
Meta AI Tech Report, 2023
∗: Equal contribution: alphabetical order
†: joint last authors
NeRF-Det: Learning Geometry-Aware Volumetric Representation for Multi-View Indoor 3D Object Detection
C. Xu, B. Wu, J. Hou, S. Tsai, R. Li, J. Wang, W. Zhan, Z. He, P. Vajda, K. Keutzer, M. Tomizuka
ICCV, 2023
A Practical Stereo Depth System for Smart Glasses
J. Wang, D. Scharstein, A. Bapat, K. Blackburn-Matzen, M. Yu, J. Lehman, S. Alsisan, Y. Wang, S. Tsai, JM Frahm, Z. He, P. Vajda, M. F. Cohen, M. Uyttendaele
CVPR, 2023
Consistent Direct Time-of-Flight Video Depth Super-Resolution
Z. Sun, W. Ye, J. Xiong, G. Choe, J. Wang, S. Su, R. Ranjan
CVPR, 2023

2022

Toward practical monocular indoor depth estimation
CY Wu, J. Wang, M. Hall, U. Neumann, S. Su
CVPR, 2022

2021

FBNetV5: Neural architecture search for multiple tasks in one run
B. Wu, C. Li, H. Zhang, X. Dai, P. Zhang, M. Yu, J. Wang, Y. Lin and P. Vajda
arXiv, 2021
Level set binocular stereo with occlusions
J. Wang, T. Zickler
arXiv, 2021
Level set stereo for cooperative grouping with occlusion
J. Wang, T. Zickler
ICIP, 2021

Before 2020

A lighting-invariant point processing for shading
K. Heal, J. Wang, S. J. Gortler, T. Zickler
CVPR, 2020
Interpreting robust optimization via adversarial influence functions
Z. Deng, C. Dwork, J. Wang, L. Zhang
alphabetical order
ICML, 2020
Improving deep stereo network generalization with geometric priors
J. Wang, V. Jampani, D. Sun, C. Loop, S. Birchfield, J. Kautz
arXiv, 2020
Local detection of stereo occlusion boundaries
J. Wang, T. Zickler
CVPR, 2019
A computational model for local stereo occlusion boundary detection
J. Wang, T. Zickler,
Journal of Vision, VSS Abstract, 2019 [poster][project][stereoscope viewer]
Half-occlusion boundary detectors in computational stereo vision
J. Wang, D. Glasner, T. Zickler,
Journal of Vision. VSS Abstract, 2018 [slides][project][stereoscope viewer]
Toward perceptually-consistent stereo: A scanline study
J. Wang, D.Glasner, T. Zickler
ICCV, 2017

📃 Patents

Xiong J., et al. "System and method for depth densification and confidence map generation"
U.S. Patent Application No. 18/430,201
Wang, J., et al. "Distance determinations using one or more neural networks."
U.S. Patent Application No. 16/852,944

⌨️ Service

Reviewer: CVPR, NeurIPS, ICML, ICCV, ICLR, BMVC, ACCV, WACV, ECCV, ACM-MM, IJCV

Google Sites

Report abuse