Jeffrey Ladish

Language Models Can Autonomously Hack and Self-Replicate.

[BibT_eX]

[DOI]

,

,

,

,

,

CoRR, May, 2026

Incomplete Tasks Induce Shutdown Resistance in Some Frontier LLMs.

[BibT_eX]

[DOI]

Benjamin Weinstein-Raun

,

Jeremy Schlatter

,

Jeffrey Ladish

Trans. Mach. Learn. Res., 2026

Shutdown Resistance in Large Language Models.

[BibT_eX]

[DOI]

Jeremy Schlatter

,

Benjamin Weinstein-Raun

,

Jeffrey Ladish

CoRR, September, 2025

The Singapore Consensus on Global AI Safety Research Priorities.

[BibT_eX]

[DOI]

,

,

,

,

,

,

,

,

,

,

,

,

Vidhisha Balachandran

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

Bryan Low Kian Hsiang

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

CoRR, June, 2025

Demonstrating specification gaming in reasoning models.

[BibT_eX]

[DOI]

,

,

,

CoRR, February, 2025

Open Problems in Technical AI Governance.

[BibT_eX]

[DOI]

Trans. Mach. Learn. Res., 2025

Open Problems in Technical AI Governance.

[BibT_eX]

[DOI]

CoRR, 2024

Unelicitable Backdoors in Language Models via Cryptographic Transformer Circuits.

[BibT_eX]

[DOI]

Andis Draguns

,

Andrew Gritsevskiy

,

Sumeet Ramesh Motwani

,

Charlie Rogers-Smith

,

Jeffrey Ladish

,

Christian Schröder de Witt

CoRR, 2024

BadLlama: cheaply removing safety fine-tuning from Llama 2-Chat 13B.

[BibT_eX]

[DOI]

,

,

,

CoRR, 2023

LoRA Fine-tuning Efficiently Undoes Safety Training in Llama 2-Chat 70B.

[BibT_eX]

[DOI]

Simon Lermen

,

Charlie Rogers-Smith

,

Jeffrey Ladish

CoRR, 2023

Constitutional AI: Harmlessness from AI Feedback.

[BibT_eX]

[DOI]

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

Timothy Telleen-Lawton

,

,

,

,

,

,

,

,

,

,

,

CoRR, 2022

Measuring Progress on Scalable Oversight for Large Language Models.

[BibT_eX]

[DOI]

CoRR, 2022

Hands-on cybersecurity exercises for introductory classes: tutorial presentation.

[BibT_eX]

[DOI]

,

,

,

J. Comput. Sci. Coll., 2016

Jeffrey Ladish

Timeline

Legend:

Links

On csauthors.net:

Bibliography

Loading...