Alberto Maria Metelli

CoRR, September, 2025

Generalizing Behavior via Inverse Reinforcement Learning with Closed-Form Reward Centroids.

[BibT_eX]

[DOI]

CoRR, September, 2025

Power Grid Control with Graph-Based Distributed Reinforcement Learning.

[BibT_eX]

[DOI]

Carlo Fabrizio

Gianvito Losapio

CoRR, September, 2025

Search or split: policy gradient with adaptive policy space.

[BibT_eX]

[DOI]

Gianmarco Tedeschi

Mach. Learn., August, 2025

Generalized Kernelized Bandits: Self-Normalized Bernstein-Like Dimension-Free Inequality and Regret Bounds.

[BibT_eX]

[DOI]

CoRR, August, 2025

Gym4ReaL: A Suite for Benchmarking Real-World Reinforcement Learning.

[BibT_eX]

[DOI]

CoRR, July, 2025

Reusing Trajectories in Policy Gradients Enables Fast Convergence.

[BibT_eX]

[DOI]

Federico Mansutti

CoRR, June, 2025

Learning Deterministic Policies with Policy Gradients in Constrained Markov Decision Processes.

[BibT_eX]

[DOI]

Leonardo Cesani

CoRR, June, 2025

Catoni-Style Change Point Detection for Regret Minimization in Non-Stationary Heavy-Tailed Bandits.

[BibT_eX]

[DOI]

Sujay Bhatt

CoRR, May, 2025

Thompson Sampling-like Algorithms for Stochastic Rising Bandits.

[BibT_eX]

[DOI]

Marco Fiandri

CoRR, May, 2025

A Refined Analysis of UCBVI.

[BibT_eX]

[DOI]

CoRR, February, 2025

Achieving ~O(√T) Regret in Average-Reward POMDPs with Known Observation Models.

[BibT_eX]

[DOI]

CoRR, January, 2025

Reward Compatibility: A Framework for Inverse RL.

[BibT_eX]

[DOI]

CoRR, January, 2025

On the Partial Identifiability in Reward Learning: Choosing the Best Reward.

[BibT_eX]

[DOI]

CoRR, January, 2025

Generalizing the Regret: an Analysis of Lower and Upper Bounds.

[BibT_eX]

[DOI]

J. Artif. Intell. Res., 2025

AReS: A patient simulator to facilitate testing of automated anesthesia.

[BibT_eX]

[DOI]

Guy Albert Dumont

Comput. Methods Programs Biomed., 2025

Factored-reward bandits with intermediate observations: Regret minimization and best arm identification.

[BibT_eX]

[DOI]

Artif. Intell., 2025

Minimax off-policy evaluation and learning with subgaussian and differentiable importance weighting.

[BibT_eX]

[DOI]

Artif. Intell., 2025

Open Problem: Regret Minimization in Heavy-Tailed Bandits with Unknown Distributional Parameters.

[BibT_eX]

[DOI]

Proceedings of the Thirty Eighth Annual Conference on Learning Theory, 2025

Achieving $\widetilde{\mathcal{O}}(\sqrt{T})$ Regret in Average-Reward POMDPs with Known Observation Models.

[BibT_eX]

[DOI]

Proceedings of the International Conference on Artificial Intelligence and Statistics, 2025

Efficient Exploitation of Hierarchical Structure in Sparse Reward Reinforcement Learning.

[BibT_eX]

[DOI]

Ciara Pike-Burke

Proceedings of the International Conference on Artificial Intelligence and Statistics, 2025

2024

Sample complexity of variance-reduced policy gradient: weaker assumptions and lower bounds.

[BibT_eX]

[DOI]

Gabor Paczolay

István Á. Harmati

Mach. Learn., September, 2024

Interpretable linear dimensionality reduction based on bias-variance analysis.

[BibT_eX]

[DOI]

Data Min. Knowl. Discov., July, 2024

Optimizing Empty Container Repositioning and Fleet Deployment via Configurable Semi-POMDPs.

[BibT_eX]

[DOI]

Ciprian Stirbu

IEEE Trans. Intell. Transp. Syst., May, 2024

Switching Latent Bandits.

[BibT_eX]

[DOI]

Trans. Mach. Learn. Res., 2024

Rising Rested Bandits: Lower Bounds and Efficient Algorithms.

[BibT_eX]

[DOI]

Marco Fiandri

CoRR, 2024

Statistical Analysis of Policy Space Compression Problem.

[BibT_eX]

[DOI]

Majid Molaei

CoRR, 2024

Efficient Learning of POMDPs with Known Observation Model in Average-Reward Setting.

[BibT_eX]

[DOI]

CoRR, 2024

Learning Utilities from Demonstrations in Markov Decision Processes.

[BibT_eX]

[DOI]

CoRR, 2024

Bridging Rested and Restless Bandits with Graph-Triggering: Rising and Rotting.

[BibT_eX]

[DOI]

CoRR, 2024

Sliding-Window Thompson Sampling for Non-Stationary Settings.

[BibT_eX]

[DOI]

Marco Fiandri

CoRR, 2024

State and Action Factorization in Power Grids.

[BibT_eX]

[DOI]

Gianvito Losapio

Davide Beretta

CoRR, 2024

Open Problem: Tight Bounds for Kernelized Multi-Armed Bandits with Bernoulli Rewards.

[BibT_eX]

[DOI]

CoRR, 2024

How to Scale Inverse RL to Large State Spaces? A Provably Efficient Approach.

[BibT_eX]

[DOI]

CoRR, 2024

Performance Improvement Bounds for Lipschitz Configurable Markov Decision Processes.

[BibT_eX]

[DOI]

CoRR, 2024

Information Capacity Regret Bounds for Bandits with Mediator Feedback.

[BibT_eX]

[DOI]

Khaled Eldowa

Nicolò Cesa-Bianchi

CoRR, 2024

Inverse Reinforcement Learning with Sub-optimal Experts.

[BibT_eX]

[DOI]

Gabriele Curti

CoRR, 2024

Policy Gradient with Active Importance Sampling.

[BibT_eX]

[DOI]

Giorgio Manganini

RLJ, 2024

A Provably Efficient Option-Based Algorithm for both High-Level and Low-Level Learning.

[BibT_eX]

[DOI]

Gianluca Drappo

RLJ, 2024

Interpetable Target-Feature Aggregation for Multi-task Learning Based on Bias-Variance Analysis.

[BibT_eX]

[DOI]

Proceedings of the Machine Learning and Knowledge Discovery in Databases. Research Track, 2024

Optimal Multi-Fidelity Best-Arm Identification.

[BibT_eX]

[DOI]

Rémy Degenne

Emilie Kaufmann

Proceedings of the Advances in Neural Information Processing Systems 38: Annual Conference on Neural Information Processing Systems 2024, 2024

Sub-optimal Experts mitigate Ambiguity in Inverse Reinforcement Learning.

[BibT_eX]

[DOI]

Gabriele Curti

Proceedings of the Advances in Neural Information Processing Systems 38: Annual Conference on Neural Information Processing Systems 2024, 2024

Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning.

[BibT_eX]

[DOI]

Proceedings of the Advances in Neural Information Processing Systems 38: Annual Conference on Neural Information Processing Systems 2024, 2024

Local Linearity: the Key for No-regret Reinforcement Learning in Continuous MDPs.

[BibT_eX]

[DOI]

Proceedings of the Advances in Neural Information Processing Systems 38: Annual Conference on Neural Information Processing Systems 2024, 2024

How does Inverse RL Scale to Large State Spaces? A Provably Efficient Approach.

[BibT_eX]

[DOI]

Proceedings of the Advances in Neural Information Processing Systems 38: Annual Conference on Neural Information Processing Systems 2024, 2024

The Power of Hybrid Learning in Industrial Robotics: Efficient Grasping Strategies with Supervised-Driven Reinforcement Learning.

[BibT_eX]

[DOI]

Vincenzo De Paola

Giuseppe Calcagno

Proceedings of the International Joint Conference on Neural Networks, 2024

Causal Feature Selection via Transfer Entropy.

[BibT_eX]

[DOI]

Francesco Emanuele Stradi

Proceedings of the International Joint Conference on Neural Networks, 2024

Online Learning with Off-Policy Feedback in Adversarial MDPs.

[BibT_eX]

[DOI]

Francesco Bacchiocchi

Proceedings of the Thirty-Third International Joint Conference on Artificial Intelligence, 2024

Best Arm Identification for Stochastic Rising Bandits.

[BibT_eX]

[DOI]

Proceedings of the Forty-first International Conference on Machine Learning, 2024

Factored-Reward Bandits with Intermediate Observations.

[BibT_eX]

[DOI]

Proceedings of the Forty-first International Conference on Machine Learning, 2024

Learning Optimal Deterministic Policies with Stochastic Policy Gradients.

[BibT_eX]

[DOI]

Proceedings of the Forty-first International Conference on Machine Learning, 2024

No-Regret Reinforcement Learning in Smooth MDPs.

[BibT_eX]

[DOI]

Proceedings of the Forty-first International Conference on Machine Learning, 2024

Offline Inverse RL: New Solution Concepts and Provably Efficient Algorithms.

[BibT_eX]

[DOI]

Proceedings of the Forty-first International Conference on Machine Learning, 2024

Graph-Triggered Rising Bandits.

[BibT_eX]

[DOI]

Proceedings of the Forty-first International Conference on Machine Learning, 2024

Projection by Convolution: Optimal Sample Complexity for Reinforcement Learning in Continuous-Space MDPs.

[BibT_eX]

[DOI]

Proceedings of the Thirty Seventh Annual Conference on Learning Theory, June 30, 2024

(ε, u)-Adaptive Regret Minimization in Heavy-Tailed Bandits.

[BibT_eX]

[DOI]

Lupo Marsigli

Proceedings of the Thirty Seventh Annual Conference on Learning Theory, June 30, 2024

Transfer Learning for Dynamical Systems Models via Autoencoders and GANs.

[BibT_eX]

[DOI]

Angelo Damiani

Gustavo Viera-López

Giorgio Manganini

Proceedings of the American Control Conference, 2024

Dissimilarity Bandits.

[BibT_eX]

[DOI]

Paolo Battellani

Proceedings of the International Conference on Artificial Intelligence and Statistics, 2024

Autoregressive Bandits.

[BibT_eX]

[DOI]

Francesco Bacchiocchi

Proceedings of the International Conference on Artificial Intelligence and Statistics, 2024

Parameterized Projected Bellman Operator.

[BibT_eX]

[DOI]

Théo Vincent

Proceedings of the Thirty-Eighth AAAI Conference on Artificial Intelligence, 2024

Recent Advancements in Inverse Reinforcement Learning.

[BibT_eX]

[DOI]

Proceedings of the Thirty-Eighth AAAI Conference on Artificial Intelligence, 2024

2023

IWDA: Importance Weighting for Drift Adaptation in Streaming Supervised Learning Problems.

[BibT_eX]

[DOI]

Filippo Fedeli

IEEE Trans. Neural Networks Learn. Syst., October, 2023

ARLO: A framework for Automated Reinforcement Learning.

[BibT_eX]

[DOI]

Davide Lombarda

Expert Syst. Appl., August, 2023

An Option-Dependent Analysis of Regret Minimization Algorithms in Finite-Horizon Semi-MDP.

[BibT_eX]

[DOI]

Gianluca Drappo

Trans. Mach. Learn. Res., 2023

Towards Fully Adaptive Regret Minimization in Heavy-Tailed Bandits.

[BibT_eX]

[DOI]

Lupo Marsigli

CoRR, 2023

Pure Exploration under Mediators' Feedback.

[BibT_eX]

[DOI]

CoRR, 2023

Nonlinear Feature Aggregation: Two Algorithms driven by Theory.

[BibT_eX]

[DOI]

CoRR, 2023

An Option-Dependent Analysis of Regret Minimization Algorithms in Finite-Horizon Semi-Markov Decision Processes.

[BibT_eX]

[DOI]

Gianluca Drappo

CoRR, 2023

On the Relation between Policy Improvement and Off-Policy Minimum-Variance Policy Evaluation.

[BibT_eX]

[DOI]

Samuele Meta

Proceedings of the Uncertainty in Artificial Intelligence, 2023

Distributional Policy Evaluation: a Maximum Entropy approach to Representation Learning.

[BibT_eX]

[DOI]

Riccardo Zamboni

Proceedings of the Advances in Neural Information Processing Systems 36: Annual Conference on Neural Information Processing Systems 2023, 2023

Truncating Trajectories in Monte Carlo Policy Evaluation: an Adaptive Approach.

[BibT_eX]

[DOI]

Nicole Nobili

Proceedings of the Advances in Neural Information Processing Systems 36: Annual Conference on Neural Information Processing Systems 2023, 2023

Information-Theoretic Regret Bounds for Bandits with Fixed Expert Advice.

[BibT_eX]

[DOI]

Khaled Eldowa

Nicolò Cesa-Bianchi

Proceedings of the IEEE Information Theory Workshop, 2023

Truncating Trajectories in Monte Carlo Reinforcement Learning.

[BibT_eX]

[DOI]

Proceedings of the International Conference on Machine Learning, 2023

Dynamical Linear Bandits.

[BibT_eX]

[DOI]

Proceedings of the International Conference on Machine Learning, 2023

Towards Theoretical Understanding of Inverse Reinforcement Learning.

[BibT_eX]

[DOI]

Proceedings of the International Conference on Machine Learning, 2023

A Tale of Sampling and Estimation in Discounted Reinforcement Learning.

[BibT_eX]

[DOI]

Proceedings of the International Conference on Artificial Intelligence and Statistics, 2023

Simultaneously Updating All Persistence Values in Reinforcement Learning.

[BibT_eX]

[DOI]

Luca Sabbioni

Luca Al Daire

Lorenzo Bisi

Proceedings of the Thirty-Seventh AAAI Conference on Artificial Intelligence, 2023

Tight Performance Guarantees of Imitator Policies with Continuous Actions.

[BibT_eX]

[DOI]

Proceedings of the Thirty-Seventh AAAI Conference on Artificial Intelligence, 2023

Wasserstein Actor-Critic: Directed Exploration via Optimism for Continuous-Actions Control.

[BibT_eX]

[DOI]

Matteo Sacco

Proceedings of the Thirty-Seventh AAAI Conference on Artificial Intelligence, 2023

2022

Exploiting environment configurability in reinforcement learning.

[BibT_eX]

[DOI]

Frontiers in Artificial Intelligence and Applications 361, IOS Press, ISBN: 978-1-64368-363-8, 2022

Policy space identification in configurable environments.

[BibT_eX]

[DOI]

Guglielmo Manneschi

Mach. Learn., 2022

A unified view of configurable Markov Decision Processes: Solution concepts, value functions, and operators.

[BibT_eX]

[DOI]

Intelligenza Artificiale, 2022

Multi-Fidelity Best-Arm Identification.

[BibT_eX]

[DOI]

Proceedings of the Advances in Neural Information Processing Systems 35: Annual Conference on Neural Information Processing Systems 2022, 2022

Storehouse: a Reinforcement Learning Environment for Optimizing Warehouse Management.

[BibT_eX]

[DOI]

Julen Cestero

Marco Quartulli

Proceedings of the International Joint Conference on Neural Networks, 2022

Stochastic Rising Bandits.

[BibT_eX]

[DOI]

Matteo Pirola

Proceedings of the International Conference on Machine Learning, 2022

Balancing Sample Efficiency and Suboptimality in Inverse Reinforcement Learning.

[BibT_eX]

[DOI]

Angelo Damiani

Giorgio Manganini

Proceedings of the International Conference on Machine Learning, 2022

Trust Region Meta Learning for Policy Optimization.

[BibT_eX]

[DOI]

Manuel Occorso

Luca Sabbioni

Proceedings of the ECML/PKDD Workshop on Meta-Knowledge Transfer, 2022

Lifelong Hyper-Policy Optimization with Multiple Importance Sampling Regularization.

[BibT_eX]

[DOI]

Pierre Liotet

Francesco Vidaich

Proceedings of the Thirty-Sixth AAAI Conference on Artificial Intelligence, 2022

2021

Dealing with multiple experts and non-stationarity in inverse reinforcement learning: an application to real-life problems.

[BibT_eX]

[DOI]

Mach. Learn., 2021

Safe Policy Iteration: A Monotonically Improving Approximate Policy Iteration Approach.

[BibT_eX]

[DOI]

Matteo Pirotta

Daniele Calandriello

J. Mach. Learn. Res., 2021

Learning in Non-Cooperative Configurable Markov Decision Processes.

[BibT_eX]

[DOI]

Giorgia Ramponi

Alessandro Concetti

Proceedings of the Advances in Neural Information Processing Systems 34: Annual Conference on Neural Information Processing Systems 2021, 2021

Subgaussian and Differentiable Importance Sampling for Off-Policy Evaluation and Learning.

[BibT_eX]

[DOI]

Proceedings of the Advances in Neural Information Processing Systems 34: Annual Conference on Neural Information Processing Systems 2021, 2021

Provably Efficient Learning of Transferable Rewards.

[BibT_eX]

[DOI]

Giorgia Ramponi

Alessandro Concetti

Proceedings of the 38th International Conference on Machine Learning, 2021

Policy Optimization as Online Learning with Mediator Feedback.

[BibT_eX]

[DOI]

Pierluca D'Oro

Proceedings of the Thirty-Fifth AAAI Conference on Artificial Intelligence, 2021

2020

Combining reinforcement learning with rule-based controllers for transparent and general decision-making in autonomous driving.

[BibT_eX]

[DOI]

Robotics Auton. Syst., 2020

Importance Sampling Techniques for Policy Optimization.

[BibT_eX]

[DOI]

Nico Montali

J. Mach. Learn. Res., 2020

On the use of the policy gradient and Hessian in inverse reinforcement learning.

[BibT_eX]

[DOI]

Matteo Pirotta

Intelligenza Artificiale, 2020

Control Frequency Adaptation via Action Persistence in Batch Reinforcement Learning.

[BibT_eX]

[DOI]

Proceedings of the 37th International Conference on Machine Learning, 2020

Truly Batch Model-Free Inverse Reinforcement Learning about Multiple Intentions.

[BibT_eX]

[DOI]

Giorgia Ramponi

Andrea Tirinzoni

Proceedings of the 23rd International Conference on Artificial Intelligence and Statistics, 2020

Gradient-Aware Model-Based Policy Search.

[BibT_eX]

[DOI]

Pierluca D'Oro

Andrea Tirinzoni

Proceedings of the Thirty-Fourth AAAI Conference on Artificial Intelligence, 2020

2019

Propagating Uncertainty in Reinforcement Learning via Wasserstein Barycenters.

[BibT_eX]

[DOI]

Proceedings of the Advances in Neural Information Processing Systems 32: Annual Conference on Neural Information Processing Systems 2019, 2019

Feature Selection via Mutual Information: New Theoretical Insights.

[BibT_eX]

[DOI]

Mario Beraha

Andrea Tirinzoni

Proceedings of the International Joint Conference on Neural Networks, 2019

Optimistic Policy Optimization via Multiple Importance Sampling.

[BibT_eX]

[DOI]

Lorenzo Lupo

Proceedings of the 36th International Conference on Machine Learning, 2019

Reinforcement Learning in Configurable Continuous Environments.

[BibT_eX]

[DOI]

Emanuele Ghelfi

Proceedings of the 36th International Conference on Machine Learning, 2019

2018

Policy Optimization via Importance Sampling.

[BibT_eX]

[DOI]

Francesco Faccio

Proceedings of the Advances in Neural Information Processing Systems 31: Annual Conference on Neural Information Processing Systems 2018, 2018

Configurable Markov Decision Processes.

[BibT_eX]

[DOI]

Proceedings of the 35th International Conference on Machine Learning, 2018

2017

Compatible Reward Inverse Reinforcement Learning.

[BibT_eX]

[DOI]

Matteo Pirotta