Jeffrey Ladish

According to our database¹, Jeffrey Ladish authored at least 11 papers between 2016 and 2025.

Collaborative distances:

Dijkstra number² of four.
Erdős number³ of three.

Timeline

Legend:

Book

In proceedings

Article

PhD thesis

Dataset

Other

Links

On csauthors.net:

Bibliography

2025

Shutdown Resistance in Large Language Models.

[BibT_eX]

[DOI]

Jeremy Schlatter

Benjamin Weinstein-Raun

Jeffrey Ladish

CoRR, September, 2025

The Singapore Consensus on Global AI Safety Research Priorities.

[BibT_eX]

[DOI]

Vidhisha Balachandran

Bryan Low Kian Hsiang

CoRR, June, 2025

Demonstrating specification gaming in reasoning models.

[BibT_eX]

[DOI]

CoRR, February, 2025

Open Problems in Technical AI Governance.

[BibT_eX]

[DOI]

Trans. Mach. Learn. Res., 2025

2024

Open Problems in Technical AI Governance.

[BibT_eX]

[DOI]

CoRR, 2024

Unelicitable Backdoors in Language Models via Cryptographic Transformer Circuits.

[BibT_eX]

[DOI]

Andis Draguns

Andrew Gritsevskiy

Sumeet Ramesh Motwani

Charlie Rogers-Smith

Jeffrey Ladish

Christian Schröder de Witt

CoRR, 2024

2023

BadLlama: cheaply removing safety fine-tuning from Llama 2-Chat 13B.

[BibT_eX]

[DOI]

CoRR, 2023

LoRA Fine-tuning Efficiently Undoes Safety Training in Llama 2-Chat 70B.

[BibT_eX]

[DOI]

Simon Lermen

Charlie Rogers-Smith

Jeffrey Ladish

CoRR, 2023

2022

Constitutional AI: Harmlessness from AI Feedback.

[BibT_eX]

[DOI]

CoRR, 2022

Measuring Progress on Scalable Oversight for Large Language Models.

[BibT_eX]

[DOI]

CoRR, 2022

2016

Hands-on cybersecurity exercises for introductory classes: tutorial presentation.

[BibT_eX]

[DOI]

J. Comput. Sci. Coll., 2016

Jeffrey Ladish

Timeline

Legend:

Links

On csauthors.net:

Bibliography

Loading...