Hoagy Cunningham

According to our database¹, Hoagy Cunningham authored at least 6 papers between 2024 and 2026.

Collaborative distances:

Dijkstra number² of four.
Erdős number³ of four.

Timeline

Legend:

Book In proceedings Article PhD thesis Dataset Other

Links

On csauthors.net:

Bibliography

2026

Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet.

[BibT_eX]

[DOI]

CoRR, May, 2026

Segment-Level Coherence for Robust Harmful Intent Probing in LLMs.

[BibT_eX]

[DOI]

CoRR, April, 2026

Constitutional Classifiers++: Efficient Production-Grade Defenses against Universal Jailbreaks.

[BibT_eX]

[DOI]

CoRR, January, 2026

2025

Auditing language models for hidden objectives.

[BibT_eX]

[DOI]

CoRR, March, 2025

Constitutional Classifiers: Defending against Universal Jailbreaks across Thousands of Hours of Red Teaming.

[BibT_eX]

[DOI]

CoRR, January, 2025

2024

Sparse Autoencoders Find Highly Interpretable Features in Language Models.

[BibT_eX]

[DOI]

Proceedings of the Twelfth International Conference on Learning Representations, 2024

Hoagy Cunningham

Timeline

Legend:

Links

On csauthors.net:

Bibliography

Loading...