HarmNet: A Framework for Adaptive Multi-Turn Jailbreak Attacks on Large Language Models

HarmNet introduces a modular framework for adaptive multi-turn jailbreak attacks, utilizing gradient-based refinement to expose critical vulnerabilities in c...

Level: advanced

By Sidhant Narula, Javad Rafiei Asl, Mohammad Ghasemigol, Eduardo Blanco, Daniel Takabi

Category: discussion