Vision Foundation Models Can Be Good Tokenizers for Latent Diffusion Models

This research introduces a novel VFM-VAE architecture that directly integrates Vision Foundation Models into Latent Diffusion Models, achieving superior trai...

Level: advanced

By Tianci Bi, Xiaoyi Zhang, Yan Lu, Nanning Zheng

Category: education