Guiding Multimodal Large Language Models with Blind and Low Vision People Visual Questions for Proactive Visual Interpretations

This research introduces a system leveraging historical visual questions from blind and low vision users to guide multimodal LLMs, significantly enhancing th...

Level: advanced

By Unknown

Category: research