Catherine Arnett

Orcid: 0000-0003-0448-5415

According to our database¹, Catherine Arnett authored at least 21 papers between 2023 and 2026.

Collaborative distances:

Dijkstra number² of four.
Erdős number³ of three.

Timeline

Legend:

Book In proceedings Article PhD thesis Dataset Other

Links

On csauthors.net:

Bibliography

2026

Soohak: A Mathematician-Curated Benchmark for Evaluating Research-level Math Capabilities of LLMs.

[BibT_eX]

[DOI]

Rafal Marcin Lochowski

CoRR, May, 2026

Weight Tying Biases Token Embeddings Towards the Output Space.

[BibT_eX]

[DOI]

CoRR, March, 2026

How Open Must Language Models be to Enable Reliable Scientific Inference?

[BibT_eX]

[DOI]

CoRR, March, 2026

CommonLID: Re-evaluating State-of-the-Art Language Identification Performance on Web Data.

[BibT_eX]

[DOI]

Pedro Ortiz Suarez

Laurie Burchell

Catherine Arnett

Rafael Mosquera Gómez

Sara Hincapié Monsalve

Shamsuddeen Hassan Muhammad

Atnafu Lambebo Tonja

Hend Al-Khalifa

Nadia Ghezaiel Hammouda

Muhammad Ravi Shulthan Habibi

Kranti Chalamalasetti

Joseph Marvin Imperial

Vallerie Alexandra Putra

Hitesh Laxmichand Patel

Shu Okabe

Fenal Ashokbhai Ilasariya

Filbert Aurelian Tjiaranata

Azril Hafizi Amirudin

Ingrid Gabriela Franco Ramirez

CoRR, January, 2026

2025

Disaggregation Reveals Hidden Training Dynamics: The Case of Agreement Attraction.

[BibT_eX]

[DOI]

James A. Michaelov

Catherine Arnett

CoRR, October, 2025

Global PIQA: Evaluating Physical Commonsense Reasoning Across 100+ Languages and Cultures.

[BibT_eX]

[DOI]

Tyler A. Chang

Catherine Arnett

CoRR, October, 2025

Explaining and Mitigating Crosslingual Tokenizer Inequities.

[BibT_eX]

[DOI]

CoRR, October, 2025

Evaluating Morphological Alignment of Tokenizers in 70 Languages.

[BibT_eX]

[DOI]

Catherine Arnett

Marisa Hudspeth

Brendan T. O'Connor

CoRR, July, 2025

Common Corpus: The Largest Collection of Ethical Data for LLM Pre-Training.

[BibT_eX]

[DOI]

Pierre-Carl Langlais

Carlos Rosas Hinostroza

CoRR, June, 2025

BPE Stays on SCRIPT: Structured Encoding for Robust Multilingual Pretokenization.

[BibT_eX]

[DOI]

Sander Land

Catherine Arnett

CoRR, May, 2025

Why do language models perform worse for morphologically complex languages?

[BibT_eX]

[DOI]

Catherine Arnett

Benjamin Bergen

Proceedings of the 31st International Conference on Computational Linguistics, 2025

On the Acquisition of Shared Grammatical Representations in Bilingual Language Models.

[BibT_eX]

[DOI]

Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), 2025

2024

Toxicity of the Commons: Curating Open-Source Pre-Training Data.

[BibT_eX]

[DOI]

CoRR, 2024

Goldfish: Monolingual Language Models for 350 Languages.

[BibT_eX]

[DOI]

CoRR, 2024

Revenge of the Fallen? Recurrent Models Match Transformers at Predicting Human Language Comprehension Metrics.

[BibT_eX]

[DOI]

James A. Michaelov

Catherine Arnett

Benjamin K. Bergen

CoRR, 2024

Different Tokenization Schemes Lead to Comparable Performance in Spanish Number Agreement.

[BibT_eX]

[DOI]

CoRR, 2024

A Bit of a Problem: Measurement Disparities in Dataset Sizes Across Languages.

[BibT_eX]

[DOI]

Catherine Arnett

Tyler A. Chang

Benjamin K. Bergen

CoRR, 2024

BPE Gets Picky: Efficient Vocabulary Refinement During Tokenizer Training.

[BibT_eX]

[DOI]

Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing, 2024

When Is Multilinguality a Curse? Language Modeling for 250 High- and Low-Resource Languages.

[BibT_eX]

[DOI]

Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing, 2024

2023

Crosslingual Structural Priming and the Pre-Training Dynamics of Bilingual Language Models.

[BibT_eX]

[DOI]

CoRR, 2023

Structural Priming Demonstrates Abstract Grammatical Representations in Multilingual Language Models.

[BibT_eX]

[DOI]

Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing, 2023

Catherine Arnett

Timeline

Legend:

Links

On csauthors.net:

Bibliography

Loading...