M3-Bench: Multi-Modal, Multi-Hop, Multi-Threaded Tool-Using MLLM Agent Benchmark

M3-Bench introduces a rigorous, model-agnostic framework for evaluating multimodal agents through multi-hop, multi-threaded workflows. This research details ...

Level: advanced

By Unknown

Category: research