Extracting Alignment Data in Open Models

This research reveals how post-trained AI models can inadvertently extract alignment data through semantic similarity, exposing critical vulnerabilities in f...

Level: advanced

By Federico Barbero and 8 other authors

Category: research