Monte MacDiarmid

Auditing language models for hidden objectives.

[BibT_eX]

[DOI]

,

,

,

,

,

Siddharth Mishra-Sharma

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

Kei Nishimura-Gasparian

,

,

,

,

,

,

,

,

,

,

,

,

,

CoRR, March, 2025

Alignment faking in large language models.

[BibT_eX]

[DOI]

CoRR, 2024

Sycophancy to Subterfuge: Investigating Reward-Tampering in Large Language Models.

[BibT_eX]

[DOI]

,

,

,

,

,

,

,

,

,

,

,

,

,

CoRR, 2024

Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training.

[BibT_eX]

[DOI]

CoRR, 2024

Understanding and Controlling a Maze-Solving Policy Network.

[BibT_eX]

[DOI]

,

,

,

,

,

Alexander Matt Turner

CoRR, 2023

Activation Addition: Steering Language Models Without Optimization.

[BibT_eX]

[DOI]

Alexander Matt Turner

,

,

,

,

,

CoRR, 2023

Monte MacDiarmid

Timeline

Legend:

Links

On csauthors.net:

Bibliography

Loading...