RadDiagSeg-M: A Vision Language Model for Joint Diagnosis and Multi-Target Segmentation in Radiology

Explore RadDiagSeg-M, an advanced vision-language model that unifies diagnostic reasoning and pixel-level segmentation using cross-modal transformers for enh...

Level: advanced

By Chengrun Li and 8 other authors

Category: research