We stand with Ukraine

We stand with Ukraine

Sharan Narang

According to our database¹, Sharan Narang authored at least 33 papers between 2015 and 2024.

Collaborative distances:

Dijkstra number² of four.
Erdős number³ of four.

Timeline

Legend:

Book

In proceedings

Article

PhD thesis

Dataset

Other

Links

On csauthors.net:

Bibliography

2024

Scaling Instruction-Finetuned Language Models.

[BibT_eX]

[DOI]

J. Mach. Learn. Res., 2024

Quantifying Variance in Evaluation Benchmarks.

[BibT_eX]

[DOI]

,

Aaditya K. Singh

,

Rylan Schaeffer

,

,

,

Pontus Stenetorp

,

,

CoRR, 2024

Effective Long-Context Scaling of Foundation Models.

[BibT_eX]

[DOI]

Proceedings of the 2024 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (Volume 1: Long Papers), 2024

2023

Scaling Up Models and Data with t5x and seqio.

[BibT_eX]

[DOI]

J. Mach. Learn. Res., 2023

PaLM: Scaling Language Modeling with Pathways.

[BibT_eX]

[DOI]

Aakanksha Chowdhery

,

,

,

,

,

,

,

Hyung Won Chung

,

,

Sebastian Gehrmann

,

,

,

Sasha Tsvyashchenko

,

,

,

,

,

,

Vinodkumar Prabhakaran

,

,

,

,

,

,

,

,

,

,

,

Anselm Levskaya

,

Sanjay Ghemawat

,

,

Henryk Michalewski

,

,

,

,

,

,

Daphne Ippolito

,

,

,

,

Alexander Spiridonov

,

,

,

Shivani Agrawal

,

,

,

Thanumalayan Sankaranarayana Pillai

,

,

Aitor Lewkowycz

,

,

,

Oleksandr Polozov

,

,

,

,

,

,

,

Michele Catasta

,

,

Kathy Meier-Hellstern

,

,

,

,

J. Mach. Learn. Res., 2023

Llama 2: Open Foundation and Fine-Tuned Chat Models.

[BibT_eX]

[DOI]

,

,

,

,

Amjad Almahairi

,

,

Nikolay Bashlykov

,

,

Prajjwal Bhargava

,

,

,

,

Cristian Canton-Ferrer

,

,

Guillem Cucurull

,

,

,

,

,

,

,

Vedanuj Goswami

,

,

Anthony Hartshorn

,

Saghar Hosseini

,

,

,

,

,

,

Isabel Kloumann

,

,

Punit Singh Koura

,

Marie-Anne Lachaux

,

,

,

Diana Liskovich

,

,

,

Xavier Martinet

,

,

,

,

,

,

Jeremy Reizenstein

,

,

,

,

,

Eric Michael Smith

,

Ranjan Subramanian

,

Xiaoqing Ellen Tan

,

,

,

,

Jian Xiang Kuan

,

,

,

,

,

,

Melanie Kambadur

,

,

Aurélien Rodriguez

,

,

,

CoRR, 2023

A Theory on Adam Instability in Large-Scale Machine Learning.

[BibT_eX]

[DOI]

,

,

,

,

,

,

Punit Singh Koura

,

,

,

,

,

Diana Liskovich

,

,

,

Melanie Kambadur

,

,

CoRR, 2023

UniMax: Fairer and More Effective Language Sampling for Large-Scale Multilingual Pretraining.

[BibT_eX]

[DOI]

Hyung Won Chung

,

,

,

,

,

,

Proceedings of the Eleventh International Conference on Learning Representations, 2023

Self-Consistency Improves Chain of Thought Reasoning in Language Models.

[BibT_eX]

[DOI]

,

,

Dale Schuurmans

,

,

,

,

Aakanksha Chowdhery

,

Proceedings of the Eleventh International Conference on Learning Representations, 2023

Scaling Laws vs Model Architectures: How does Inductive Bias Influence Scaling?

[BibT_eX]

[DOI]

,

Mostafa Dehghani

,

,

Hyung Won Chung

,

,

,

,

,

,

Proceedings of the Findings of the Association for Computational Linguistics: EMNLP 2023, 2023

Understanding HTML with Large Language Models.

[BibT_eX]

[DOI]

,

,

,

Mustafa Safdari

,

Austin V. Huang

,

Aakanksha Chowdhery

,

,

,

Aleksandra Faust

Proceedings of the Findings of the Association for Computational Linguistics: EMNLP 2023, 2023

Character-Aware Models Improve Visual Text Rendering.

[BibT_eX]

[DOI]

,

,

Chitwan Saharia

,

,

,

,

,

,

Mohammad Norouzi

,

Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), 2023

2022

ByT5: Towards a Token-Free Future with Pre-trained Byte-to-Byte Models.

[BibT_eX]

[DOI]

,

,

,

,

,

,

,

Trans. Assoc. Comput. Linguistics, 2022

FCM: Forgetful Causal Masking Makes Causal Language Models Better Zero-Shot Learners.

[BibT_eX]

[DOI]

,

,

,

,

,

,

CoRR, 2022

Scaling Instruction-Finetuned Language Models.

[BibT_eX]

[DOI]

CoRR, 2022

Scaling Up Models and Data with t5x and seqio.

[BibT_eX]

[DOI]

CoRR, 2022

Scale Efficiently: Insights from Pretraining and Finetuning Transformers.

[BibT_eX]

[DOI]

,

Mostafa Dehghani

,

,

,

,

Hyung Won Chung

,

,

,

,

Proceedings of the Tenth International Conference on Learning Representations, 2022

2021

Scale Efficiently: Insights from Pre-training and Fine-tuning Transformers.

[BibT_eX]

[DOI]

,

Mostafa Dehghani

,

,

,

,

Hyung Won Chung

,

,

,

,

CoRR, 2021

Do Transformer Modifications Transfer Across Implementations and Applications?

[BibT_eX]

[DOI]

,

Hyung Won Chung

,

,

,

Thibault Févry

,

,

Karishma Malkan

,

,

,

,

,

,

,

,

,

Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing, 2021

2020

Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer.

[BibT_eX]

[DOI]

,

,

,

,

,

,

,

,

J. Mach. Learn. Res., 2020

WT5?! Training Text-to-Text Models to Explain their Predictions.

[BibT_eX]

[DOI]

,

,

,

,

,

Karishma Malkan

CoRR, 2020

On Task-Level Dialogue Composition of Generative Transformer Model.

[BibT_eX]

[DOI]

Prasanna Parthasarathi

,

,

Arvind Neelakantan

Proceedings of the First Workshop on Insights from Negative Results in NLP, 2020

2019

Neural Assistant: Joint Action Prediction, Response Generation, and Latent Knowledge Reasoning.

[BibT_eX]

[DOI]

Arvind Neelakantan

,

,

,

,

,

Daniel Duckworth

,

Chinnadhurai Sankar

,

CoRR, 2019

2018

Deep Voice 3: Scaling Text-to-Speech with Convolutional Sequence Learning.

[BibT_eX]

[DOI]

,

,

Andrew Gibiansky

,

Sercan Ömer Arik

,

,

,

Jonathan Raiman

,

Proceedings of the 6th International Conference on Learning Representations, 2018

Mixed Precision Training.

[BibT_eX]

[DOI]

Paulius Micikevicius

,

,

,

Gregory F. Diamos

,

,

,

,

Michael Houston

,

Oleksii Kuchaiev

,

Ganesh Venkatesh

,

Proceedings of the 6th International Conference on Learning Representations, 2018

2017

Deep Learning Scaling is Predictable, Empirically.

[BibT_eX]

[DOI]

,

,

Newsha Ardalani

,

Gregory F. Diamos

,

,

Hassan Kianinejad

,

Md. Mostofa Ali Patwary

,

,

CoRR, 2017

Block-Sparse Recurrent Neural Networks.

[BibT_eX]

[DOI]

,

Eric Undersander

,

Gregory F. Diamos

CoRR, 2017

Deep Voice 3: 2000-Speaker Neural Text-to-Speech.

[BibT_eX]

[DOI]

,

,

Andrew Gibiansky

,

Sercan Ömer Arik

,

,

,

Jonathan Raiman

,

CoRR, 2017

Exploring Sparsity in Recurrent Neural Networks.

[BibT_eX]

[DOI]

,

,

Shubho Sengupta

,

Proceedings of the 5th International Conference on Learning Representations, 2017

DSD: Dense-Sparse-Dense Training for Deep Neural Networks.

[BibT_eX]

[DOI]

,

,

,

,

,

,

,

,

,

,

Bryan Catanzaro

,

William J. Dally

Proceedings of the 5th International Conference on Learning Representations, 2017

2016

DSD: Regularizing Deep Neural Networks with Dense-Sparse-Dense Training Flow.

[BibT_eX]

[DOI]

,

,

,

,

,

,

Bryan Catanzaro

,

,

William J. Dally

CoRR, 2016

Deep Speech 2 : End-to-End Speech Recognition in English and Mandarin.

[BibT_eX]

[DOI]

Proceedings of the 33nd International Conference on Machine Learning, 2016

2015

Deep Speech 2: End-to-End Speech Recognition in English and Mandarin.

[BibT_eX]

[DOI]

CoRR, 2015

Loading...