FG-CLIP 2: A Bilingual Fine-grained Vision-Language Alignment Model

Explore FG-CLIP 2, a cutting-edge bilingual vision-language model that redefines fine-grained alignment through innovative region-text matching and TIC loss ...

Level: advanced

By Unknown

Category: research