Jalaj Bhandari

Orcid: 0000-0002-7115-8986

According to our database¹, Jalaj Bhandari authored at least 16 papers between 2016 and 2026.

Collaborative distances:

Dijkstra number² of four.
Erdős number³ of four.

Timeline

Legend:

Book In proceedings Article PhD thesis Dataset Other

Links

On csauthors.net:

Bibliography

2026

Credit Assignment with Resets in Language Model Reasoning.

[BibT_eX]

[DOI]

CoRR, May, 2026

Structure Enables Effective Self-Localization of Errors in LLMs.

[BibT_eX]

[DOI]

CoRR, February, 2026

2025

Aligning LLMs Toward Multi-Turn Conversational Outcomes Using Iterative PPO.

[BibT_eX]

[DOI]

CoRR, November, 2025

A Note on Code Quality Score: LLMs for Maintainable Large Codebases.

[BibT_eX]

[DOI]

CoRR, August, 2025

Aligned Multi Objective Optimization.

[BibT_eX]

[DOI]

CoRR, February, 2025

Aligned Multi Objective Optimization.

[BibT_eX]

[DOI]

Proceedings of the Forty-second International Conference on Machine Learning, 2025

2024

Pearl: A Production-Ready Reinforcement Learning Agent.

[BibT_eX]

[DOI]

Zheqing Zhu

Rodrigo de Salvo Braz

J. Mach. Learn. Res., 2024

Global Optimality Guarantees for Policy Gradient Methods.

[BibT_eX]

[DOI]

Jalaj Bhandari

Daniel Russo

Oper. Res., 2024

2023

Optimizing Long-term Value for Auction-Based Recommender Systems via On-Policy Reinforcement Learning.

[BibT_eX]

[DOI]

Proceedings of the 17th ACM Conference on Recommender Systems, 2023

2021

On the Linear Convergence of Policy Gradient Methods for Finite MDPs.

[BibT_eX]

[DOI]

Jalaj Bhandari

Daniel Russo

Proceedings of the 24th International Conference on Artificial Intelligence and Statistics, 2021

2020

Optimization Foundations of Reinforcement Learning.

[BibT_eX]

[DOI]

Jalaj Bhandari

PhD thesis, 2020

A Note on the Linear Convergence of Policy Gradient Methods.

[BibT_eX]

[DOI]

Jalaj Bhandari

Daniel Russo

CoRR, 2020

2018

A Finite Time Analysis of Temporal Difference Learning With Linear Function Approximation.

[BibT_eX]

[DOI]

Jalaj Bhandari

Daniel Russo

Raghav Singal

Proceedings of the Conference On Learning Theory, 2018

2017

Annular Augmentation Sampling.

[BibT_eX]

[DOI]

Francois Fagan

Jalaj Bhandari

John P. Cunningham

Proceedings of the 20th International Conference on Artificial Intelligence and Statistics, 2017

2016

On the tightness of an LP relaxation for rational optimization and its applications.

[BibT_eX]

[DOI]

Oper. Res. Lett., 2016

Elliptical Slice Sampling with Expectation Propagation.

[BibT_eX]

[DOI]

Francois Fagan

Jalaj Bhandari

John P. Cunningham

Proceedings of the Thirty-Second Conference on Uncertainty in Artificial Intelligence, 2016

Jalaj Bhandari

Timeline

Legend:

Links

On csauthors.net:

Bibliography

Loading...