Joe Needham

According to our database¹, Joe Needham authored at least 2 papers between 2024 and 2025.

Collaborative distances:

Timeline

Book

In proceedings

Article

PhD thesis

Dataset

Other

2025

Large Language Models Often Know When They Are Being Evaluated.

[BibT_eX]

[DOI]

CoRR, May, 2025

2024

Honesty to Subterfuge: In-Context Reinforcement Learning Can Make Honest Models Reward Hack.

[BibT_eX]

[DOI]

CoRR, 2024