Sparse Feature Coactivation Reveals Causal Semantic Modules in Large Language Models

This research leverages sparse autoencoders to decode causal semantic modules within large language models, revealing a hierarchical compositional architectu...

Level: advanced

By Unknown

Category: research