Qinbo Bai

Washim Uddin Mondal

Found. Trends Optim., 2024

Learning General Parameterized Policies for Infinite Horizon Average Reward Constrained MDPs via Primal-Dual Policy Gradient Algorithm.

[BibT_eX]

[DOI]

Washim Uddin Mondal

Proceedings of the Advances in Neural Information Processing Systems 37: Annual Conference on Neural Information Processing Systems 2024, 2024

Regret Analysis of Policy Gradient Algorithm for Infinite Horizon Average Reward Markov Decision Processes.

[BibT_eX]

[DOI]

Washim Uddin Mondal

Proceedings of the Thirty-Eighth AAAI Conference on Artificial Intelligence, 2024

2023

A Reinforcement Learning Framework for Vehicular Network Routing Under Peak and Average Constraints.

[BibT_eX]

[DOI]

IEEE Trans. Veh. Technol., May, 2023

Provably Sample-Efficient Model-Free Algorithm for MDPs with Peak Constraints.

[BibT_eX]

[DOI]

Ather Gattami

J. Mach. Learn. Res., 2023

Achieving Zero Constraint Violation for Constrained Reinforcement Learning via Conservative Natural Policy Gradient Primal-Dual Algorithm.

[BibT_eX]

[DOI]

Amrit Singh Bedi

Proceedings of the Thirty-Seventh AAAI Conference on Artificial Intelligence, 2023

2022

Concave Utility Reinforcement Learning with Zero-Constraint Violations.

[BibT_eX]

[DOI]

Trans. Mach. Learn. Res., 2022

Joint Optimization of Concave Scalarized Multi-Objective Reinforcement Learning with Policy Gradient Based Algorithm.

[BibT_eX]

[DOI]

J. Artif. Intell. Res., 2022

Regret guarantees for model-based reinforcement learning with long-term average constraints.

[BibT_eX]

[DOI]

Proceedings of the Uncertainty in Artificial Intelligence, 2022

Achieving Zero Constraint Violation for Constrained Reinforcement Learning via Primal-Dual Approach.

[BibT_eX]

[DOI]

Proceedings of the Thirty-Sixth AAAI Conference on Artificial Intelligence, 2022

2021

Markov Decision Processes with Long-Term Average Constraints.

[BibT_eX]

[DOI]

CoRR, 2021

Joint Optimization of Multi-Objective Reinforcement Learning with Policy Gradient Based Algorithm.

[BibT_eX]

[DOI]

CoRR, 2021

Reinforcement Learning for Constrained Markov Decision Processes.

[BibT_eX]

[DOI]

Ather Gattami

Proceedings of the 24th International Conference on Artificial Intelligence and Statistics, 2021

2020

Deep Learning-Based Channel Estimation Algorithm Over Time Selective Fading Channels.

[BibT_eX]

[DOI]

IEEE Trans. Cogn. Commun. Netw., 2020

Model-Free Algorithm and Regret Analysis for MDPs with Peak Constraints.

[BibT_eX]

[DOI]

Ather Gattami

CoRR, 2020

Escaping Saddle Points for Zeroth-order Non-convex Optimization using Estimated Gradient Descent.

[BibT_eX]

[DOI]

Proceedings of the 54th Annual Conference on Information Sciences and Systems, 2020

2019

Escaping Saddle Points for Zeroth-order Nonconvex Optimization using Estimated Gradient Descent.

[BibT_eX]

[DOI]