Jerry Wei

According to our database¹, Jerry Wei authored at least 11 papers between 2020 and 2026.

Collaborative distances:

Dijkstra number² of four.
Erdős number³ of four.

Timeline

Legend:

Book In proceedings Article PhD thesis Dataset Other

Links

On csauthors.net:

Bibliography

2026

Jailbroken Frontier Models Retain Their Capabilities.

[BibT_eX]

[DOI]

CoRR, May, 2026

Segment-Level Coherence for Robust Harmful Intent Probing in LLMs.

[BibT_eX]

[DOI]

CoRR, April, 2026

Trojan-Speak: Bypassing Constitutional Classifiers with No Jailbreak Tax via Adversarial Finetuning.

[BibT_eX]

[DOI]

CoRR, March, 2026

Constitutional Classifiers++: Efficient Production-Grade Defenses against Universal Jailbreaks.

[BibT_eX]

[DOI]

CoRR, January, 2026

2025

Constitutional Classifiers: Defending against Universal Jailbreaks across Thousands of Hours of Red Teaming.

[BibT_eX]

[DOI]

CoRR, January, 2025

2024

Best Practices and Lessons Learned on Synthetic Data for Language Models.

[BibT_eX]

[DOI]

CoRR, 2024

Long-form factuality in large language models.

[BibT_eX]

[DOI]

CoRR, 2024

Non-robustness of diffusion estimates on networks with measurement error.

[BibT_eX]

[DOI]

Arun G. Chandrasekhar

Paul Goldsmith-Pinkham

Tyler H. McCormick

Samuel Thau

Jerry Wei

CoRR, 2024

Long-form factuality in large language models.

[BibT_eX]

[DOI]

Proceedings of the Advances in Neural Information Processing Systems 37: Annual Conference on Neural Information Processing Systems 2024, 2024

2021

Adapting Security Warnings to Counter Online Disinformation.

[BibT_eX]

[DOI]

Proceedings of the 30th USENIX Security Symposium, 2021

2020

NewB: 200, 000+ Sentences for Political Bias Detection.

[BibT_eX]

[DOI]

Jerry Wei

CoRR, 2020

Jerry Wei

Timeline

Legend:

Links

On csauthors.net:

Bibliography

Loading...