Home

Greetings! I am a senior research scientist at Google DeepMind working on Gemini and Veo. I obtained my Ph.D. and M.S. at Carnegie Mellon University School of Computer Science. I graduated summa cum laude from Peking University major in Computer Science as well as Economics. My research interests lie around multi-modal foundation models, especially for video generation.

News

[07/2024] VideoPoet receives Best Paper Award at ICML 2024. Watch the talk.
[04/2024] Invited talks at HK-SH AI Forum, NYU, CalTech, HKUST, ICT CAS, Adobe, ByteDance, Baidu, etc.
[12/2023] Introducing VideoPoet, a large language model for zero-shot video generation, enabled by MAGVIT-v2 tokenizer.

[12/2023] Introducing W.A.L.T, a latent video diffusion transformer, enabled by MAGVIT-v2.

Selected Publications

Photorealistic Video Generation with Diffusion Models

Agrim Gupta, Lijun Yu, Kihyuk Sohn, Xiuye Gu, Meera Hahn, Li Fei-Fei, Irfan Essa, Lu Jiang, José Lezama. In ECCV, 2024

Towards Multi-Task Multi-Modal Models: A Video Generative Perspective

Lijun Yu. In CMU Ph.D. Thesis, 2024

VideoPoet: A Large Language Model for Zero-Shot Video Generation

Dan Kondratyuk*, Lijun Yu*, Xiuye Gu*, José Lezama*, Jonathan Huang*, Grant Schindler, Rachel Hornung, Vighnesh Birodkar, Jimmy Yan, Ming-Chang Chiu, Krishna Somandepalli, Hassan Akbari, Yair Alon, Yong Cheng, Josh Dillon, Agrim Gupta, Meera Hahn, Anja Hauth, David Hendon, Alonso Martinez, David Minnen, Mikhail Sirotenko, Kihyuk Sohn, Xuan Yang, Hartwig Adam, Ming-Hsuan Yang, Irfan Essa, Huisheng Wang, David A. Ross, Bryan Seybold*, Lu Jiang* (*Equal contribution). In ICML (Best Paper Award, Oral), 2024

Lijun Yu 于力军

Home

News

Selected Publications

Photorealistic Video Generation with Diffusion Models

Towards Multi-Task Multi-Modal Models: A Video Generative Perspective

VideoPoet: A Large Language Model for Zero-Shot Video Generation

Language Model Beats Diffusion - Tokenizer is Key to Visual Generation

SPAE: Semantic Pyramid AutoEncoder for Multimodal Generation with Frozen LLMs

MAGVIT: Masked Generative Video Transformer

Selected Talks

VideoPoet: A Large Language Model for Zero-Shot Video Generation

Towards Multi-Task Multi-Modal Models: A Video Generative Perspective

Language Model Beats Diffusion - Tokenizer is Key to Visual Generation

Selected Repos

MAGVIT: Masked Generative Video Transformer