We stand with Ukraine

We stand with Ukraine

Bruno C. da Silva

Orcid: 0000-0002-3708-5728

Affiliations:

University of Massachusetts, Amherst, MA, USA
Federal University of Rio Grande do Sul (UFRGS), Institute of Informatics, Porto Alegre, Brazil (former)

According to our database¹, Bruno C. da Silva authored at least 66 papers between 2004 and 2026.

Collaborative distances:

Dijkstra number² of four.
Erdős number³ of three.

Timeline

Legend:

Book In proceedings Article PhD thesis Dataset Other

Links

Online presence:

On csauthors.net:

Bibliography

2026

Generalized policy improvement for efficient and robust multi-objective reinforcement learning.

[DOI]

Lucas N. Alegre

,

Ana L. C. Bazzan

,

Diederik M. Roijers

,

,

Bruno C. da Silva

Auton. Agents Multi Agent Syst., June, 2026

Enabling Option Learning in Sparse Rewards with Hindsight Experience Replay.

[DOI]

,

Mateus Begnini Melchiades

,

Bruno Castro da Silva

,

Gabriel de Oliveira Ramos

CoRR, February, 2026

RLHF Deciphered: A Critical Analysis of Reinforcement Learning from Human Feedback for LLMs.

[DOI]

Shreyas Chaudhari

,

Pranjal Aggarwal

,

Vishvak Murahari

,

Tanmay Rajpurohit

,

,

Karthik Narasimhan

,

Ameet Deshpande

,

Bruno Castro da Silva

ACM Comput. Surv., January, 2026

2025

Addressing the Plasticity-Stability Dilemma in Reinforcement Learning.

[DOI]

Mansi Maheshwari

,

John C. Raisbeck

,

Bruno Castro da Silva

CoRR, December, 2025

PROMPTMINER: Black-Box Prompt Stealing against Text-to-Image Generative Models via Reinforcement Learning and Fuzz Optimization.

[DOI]

,

,

,

,

Bruno Castro da Silva

,

,

CoRR, November, 2025

Which Rewards Matter? Reward Selection for Reinforcement Learning under Limited Feedback.

[DOI]

Shreyas Chaudhari

,

,

Philip S. Thomas

,

Bruno Castro da Silva

CoRR, October, 2025

Constructing an Optimal Behavior Basis for the Option Keyboard.

[DOI]

Lucas N. Alegre

,

Ana L. C. Bazzan

,

,

Bruno C. da Silva

CoRR, May, 2025

Successor Clusters: A Behavior Basis for Unsupervised Zero-Shot Reinforcement Learning.

[DOI]

,

Lucas Nunes Alegre

,

,

,

Bruno Castro da Silva

Trans. Mach. Learn. Res., 2025

Dynamic Option Creation in Option-Critic Reinforcement Learning.

[DOI]

Mateus Begnini Melchiades

,

Gabriel de Oliveira Ramos

,

Bruno C. da Silva

Proceedings of the 24th International Conference on Autonomous Agents and Multiagent Systems, 2025

2024

Mitigating the Curse of Horizon in Monte-Carlo Returns.

[DOI]

,

David Szepesvari

,

Francesco Zanini

,

,

,

Bruno Castro da Silva

,

Dale Schuurmans

RLJ, 2024

Abstract Reward Processes: Leveraging State Abstraction for Consistent Off-Policy Evaluation.

[DOI]

Shreyas Chaudhari

,

Ameet Deshpande

,

Bruno C. da Silva

,

Philip S. Thomas

Proceedings of the Advances in Neural Information Processing Systems 37: Annual Conference on Neural Information Processing Systems 2024, 2024

Position: Benchmarking is Limited in Reinforcement Learning Research.

[DOI]

Scott M. Jordan

,

,

Bruno Castro da Silva

,

,

Philip S. Thomas

Proceedings of the Forty-first International Conference on Machine Learning, 2024

From Past to Future: Rethinking Eligibility Traces.

[DOI]

,

Scott M. Jordan

,

Shreyas Chaudhari

,

,

Philip S. Thomas

,

Bruno Castro da Silva

Proceedings of the Thirty-Eighth AAAI Conference on Artificial Intelligence, 2024

2023

Coagent Networks: Generalized and Scaled.

[DOI]

James E. Kostas

,

Scott M. Jordan

,

,

Georgios Theocharous

,

,

,

Bruno Castro da Silva

,

Philip S. Thomas

CoRR, 2023

Behavior Alignment via Reward Function Optimization.

[DOI]

,

,

Scott M. Jordan

,

Philip S. Thomas

,

Bruno C. da Silva

Proceedings of the Advances in Neural Information Processing Systems 36: Annual Conference on Neural Information Processing Systems 2023, 2023

A Toolkit for Reliable Benchmarking and Research in Multi-Objective Reinforcement Learning.

[DOI]

,

Lucas N. Alegre

,

,

Ana L. C. Bazzan

,

El-Ghazali Talbi

,

Grégoire Danoy

,

Bruno C. da Silva

Proceedings of the Advances in Neural Information Processing Systems 36: Annual Conference on Neural Information Processing Systems 2023, 2023

Multi-Step Generalized Policy Improvement by Leveraging Approximate Models.

[DOI]

Lucas Nunes Alegre

,

Ana L. C. Bazzan

,

,

Bruno C. da Silva

Proceedings of the Advances in Neural Information Processing Systems 36: Annual Conference on Neural Information Processing Systems 2023, 2023

Seldonian Toolkit: Building Software with Safe and Fair Machine Learning.

[DOI]

,

James E. Kostas

,

Bruno Castro da Silva

,

Philip S. Thomas

,

Proceedings of the 45th IEEE/ACM International Conference on Software Engineering: ICSE 2023 Companion Proceedings, 2023

Sample-Efficient Multi-Objective Learning via Generalized Policy Improvement Prioritization.

[DOI]

Lucas Nunes Alegre

,

Ana L. C. Bazzan

,

Diederik M. Roijers

,

,

Bruno C. da Silva

Proceedings of the 2023 International Conference on Autonomous Agents and Multiagent Systems, 2023

2022

Model-Based Reinforcement Learning with SINDy.

[DOI]

,

Bruno Castro da Silva

,

CoRR, 2022

Enforcing Delayed-Impact Fairness Guarantees.

[DOI]

,

Blossom Metevier

,

,

Philip S. Thomas

,

Bruno Castro da Silva

CoRR, 2022

Off-Policy Evaluation for Action-Dependent Non-stationary Environments.

[DOI]

,

,

Nathaniel D. Bastian

,

Bruno C. da Silva

,

,

Philip S. Thomas

Proceedings of the Advances in Neural Information Processing Systems 35: Annual Conference on Neural Information Processing Systems 2022, 2022

Look-Ahead Reinforcement Learning for Load Balancing Network Traffic.

[DOI]

Isadora P. Possebon

,

Bruno Castro da Silva

,

Alberto E. Schaeffer-Filho

Proceedings of the IEEE Symposium on Computers and Communications, 2022

Constrained Offline Policy Optimization.

[DOI]

Nicholas Polosky

,

Bruno C. da Silva

,

Madalina Fiterau

,

Jithin Jagannath

Proceedings of the International Conference on Machine Learning, 2022

Optimistic Linear Support and Successor Features as a Basis for Optimal Policy Transfer.

[DOI]

Lucas Nunes Alegre

,

Ana L. C. Bazzan

,

Bruno C. da Silva

Proceedings of the International Conference on Machine Learning, 2022

Fairness Guarantees under Demographic Shift.

[DOI]

Stephen Giguere

,

Blossom Metevier

,

Bruno Castro da Silva

,

,

Philip S. Thomas

,

Proceedings of the Tenth International Conference on Learning Representations, 2022

RADAR: Reactive and Deliberative Adaptive Reasoning - Learning When to Think Fast and When to Think Slow.

[DOI]

,

Didrik Spanne Reilstad

,

,

Bruno Castro da Silva

,

,

Kai Olav Ellefsen

Proceedings of the IEEE International Conference on Development and Learning, 2022

2021

Quantifying the impact of non-stationarity in reinforcement learning-based traffic signal control.

[DOI]

Lucas Nunes Alegre

,

Ana L. C. Bazzan

,

Bruno C. da Silva

PeerJ Comput. Sci., 2021

Patterns of high-risk drinking among medical students: A web-based survey with machine learning.

[DOI]

Grasiela Marcon

,

Flávia de Ávila Pereira

,

,

Bruno Castro da Silva

,

Lisia von Diemen

,

Ives Cavalcante Passos

,

Mariana Recamonde Mendoza

Comput. Biol. Medicine, 2021

Universal Off-Policy Evaluation.

[DOI]

,

,

Bruno C. da Silva

,

Erik G. Learned-Miller

,

,

Philip S. Thomas

Proceedings of the Advances in Neural Information Processing Systems 34: Annual Conference on Neural Information Processing Systems 2021, 2021

Posterior Value Functions: Hindsight Baselines for Policy Gradient Methods.

[DOI]

,

Philip S. Thomas

,

Bruno C. da Silva

Proceedings of the 38th International Conference on Machine Learning, 2021

Minimum-Delay Adaptation in Non-Stationary Reinforcement Learning via Online High-Confidence Change-Point Detection.

[DOI]

Lucas Nunes Alegre

,

Ana L. C. Bazzan

,

Bruno C. da Silva

Proceedings of the AAMAS '21: 20th International Conference on Autonomous Agents and Multiagent Systems, 2021

2020

Toll-based reinforcement learning for efficient equilibria in route choice.

[DOI]

Gabriel de Oliveira Ramos

,

Bruno C. da Silva

,

Roxana Radulescu

,

Ana L. C. Bazzan

,

Knowl. Eng. Rev., 2020

Data clustering for efficient approximate computing.

[DOI]

Michael G. Jordan

,

Marcelo Brandalero

,

Guilherme Meneguzzi Malfatti

,

Geraldo F. Oliveira

,

Arthur Francisco Lorenzon

,

Bruno C. da Silva

,

,

Mateus B. Rutzig

,

Antonio Carlos Schneider Beck

Des. Autom. Embed. Syst., 2020

Autonomous learning of multiple, context-dependent tasks.

[DOI]

Vieri Giuliano Santucci

,

Davide Montella

,

Bruno Castro da Silva

,

Gianluca Baldassarre

CoRR, 2020

Optimal Options for Multi-Task Reinforcement Learning Under Time Constraints.

[DOI]

Manuel Del Verme

,

Bruno Castro da Silva

,

Gianluca Baldassarre

CoRR, 2020

2019

Autonomous Open-Ended Learning of Interdependent Tasks.

[DOI]

Vieri Giuliano Santucci

,

,

Bruno Castro da Silva

,

Gianluca Baldassarre

CoRR, 2019

Parameterized Melody Generation with Autoencoders and Temporally-Consistent Noise.

[DOI]

,

Lucas Nunes Alegre

,

,

Bruno C. da Silva

Proceedings of the 19th International Conference on New Interfaces for Musical Expression, 2019

A Methodology for Neural Network Architectural Tuning Using Activation Occurrence Maps.

[DOI]

,

Alexandre Xavier Falcão

,

Alexandru C. Telea

,

Bruno Castro da Silva

,

,

João Luiz Dihl Comba

Proceedings of the International Joint Conference on Neural Networks, 2019

Identifying Reusable Early-Life Options.

[DOI]

,

Charles P. Martin

,

,

Bruno C. da Silva

Proceedings of the Joint IEEE 9th International Conference on Development and Learning and Epigenetic Robotics, 2019

A Compression-Inspired Framework for Macro Discovery.

[DOI]

Francisco M. Garcia

,

Bruno C. da Silva

,

Philip S. Thomas

Proceedings of the 18th International Conference on Autonomous Agents and MultiAgent Systems, 2019

2018

A task-and-technique centered survey on visual analytics for deep learning model engineering.

[DOI]

,

Alexandru C. Telea

,

Bruno Castro da Silva

,

,

João Luiz Dihl Comba

Comput. Graph., 2018

Efficient Local Memory Support for Approximate Computing.

[DOI]

Marcelo Brandalero

,

Guilherme Meneguzzi Malfatti

,

Geraldo Francisco Oliveira

,

Leonardo Almeida da Silveira

,

Larissa Rozales Gonçalves

,

Bruno Castro da Silva

,

,

Antonio Carlos Schneider Beck

Proceedings of the VIII Brazilian Symposium on Computing Systems Engineering, 2018

Comparing Multi-Armed Bandit Algorithms and Q-learning for Multiagent Action Selection: a Case Study in Route Choice.

[DOI]

Thiago Bell Felix de Oliveira

,

Ana L. C. Bazzan

,

Bruno C. da Silva

,

Ricardo Grunitzki

Proceedings of the 2018 International Joint Conference on Neural Networks, 2018

Towards Designing Optimal Reward Functions in Multi-Agent Reinforcement Learning Problems.

[DOI]

Ricardo Grunitzki

,

Bruno Castro da Silva

,

Ana L. C. Bazzan

Proceedings of the 2018 International Joint Conference on Neural Networks, 2018

2017

Identifying Reusable Macros for Efficient Exploration via Policy Compression.

[DOI]

Francisco M. Garcia

,

Bruno C. da Silva

CoRR, 2017

On Ensuring that Intelligent Machines Are Well-Behaved.

[DOI]

Philip S. Thomas

,

Bruno Castro da Silva

,

Andrew G. Barto

,

CoRR, 2017

Task-based behavior generalization via manifold clustering.

[DOI]

,

Bruno Castro da Silva

,

João Luiz Dihl Comba

Proceedings of the 2017 IEEE/RSJ International Conference on Intelligent Robots and Systems, 2017

Learning to Minimise Regret in Route Choice.

[DOI]

Gabriel de Oliveira Ramos

,

Bruno Castro da Silva

,

Ana L. C. Bazzan

Proceedings of the 16th Conference on Autonomous Agents and MultiAgent Systems, 2017

A Flexible Approach for Designing Optimal Reward Functions.

[DOI]

Ricardo Grunitzki

,

Bruno Castro da Silva

,

Ana L. C. Bazzan

Proceedings of the 16th Conference on Autonomous Agents and MultiAgent Systems, 2017

Context-Based Concurrent Experience Sharing in Multiagent Systems.

[DOI]

,

Bruno Castro da Silva

,

Victor R. Lesser

,

Proceedings of the 16th Conference on Autonomous Agents and MultiAgent Systems, 2017

2016

Using Topological Statistics to Bias and Accelerate Route Choice: Preliminary Findings in Synthetic and Real-World Road Networks.

[DOI]

Fernando Stefanello

,

Bruno Castro da Silva

,

Ana L. C. Bazzan

Proceedings of the Ninth International Workshop on Agents in Traffic and Transportation (ATT 2016) co-located with the 25th International Joint Conference On Artificial Intelligence (IJCAI 2016), 2016

Energetic Natural Gradient Descent.

[DOI]

Philip S. Thomas

,

Bruno Castro da Silva

,

,

Proceedings of the 33nd International Conference on Machine Learning, 2016

2014

Learning parameterized motor skills on a humanoid robot.

[DOI]

Bruno Castro da Silva

,

Gianluca Baldassarre

,

George Dimitri Konidaris

,

Andrew G. Barto

Proceedings of the 2014 IEEE International Conference on Robotics and Automation, 2014

Active Learning of Parameterized Skills.

[DOI]

Bruno Castro da Silva

,

George Dimitri Konidaris

,

Andrew G. Barto

Proceedings of the 31th International Conference on Machine Learning, 2014

2013

Biasing the behavior of organizationally adept agents: (extended abstract).

[DOI]

Daniel D. Corkill

,

,

Bruno Castro da Silva

,

,

,

Victor R. Lesser

,

Proceedings of the International conference on Autonomous Agents and Multi-Agent Systems, 2013

2012

Learning Parameterized Skills.

[DOI]

Bruno Castro da Silva

,

George Dimitri Konidaris

,

Andrew G. Barto

Proceedings of the 29th International Conference on Machine Learning, 2012

TD-DeltaPi: A Model-Free Algorithm for Efficient Exploration.

[DOI]

Bruno Castro da Silva

,

Andrew G. Barto

Proceedings of the Twenty-Sixth AAAI Conference on Artificial Intelligence, 2012

2010

Learning in groups of traffic signals.

[DOI]

Ana L. C. Bazzan

,

Denise de Oliveira

,

Bruno Castro da Silva

Eng. Appl. Artif. Intell., 2010

2007

Distributed constraint propagation for diagnosis of faults in physical processes.

[DOI]

Ana L. C. Bazzan

,

Bruno Castro da Silva

Proceedings of the 6th International Joint Conference on Autonomous Agents and Multiagent Systems (AAMAS 2007), 2007

2006

Dealing with non-stationary environments using context detection.

[DOI]

Bruno Castro da Silva

,

Eduardo W. Basso

,

Ana L. C. Bazzan

,

Paulo Martins Engel

Proceedings of the Machine Learning, 2006

Reinforcement Learning based Control of Traffic Lights in Non-stationary Environments: A Case Study in a Microscopic Simulator.

[DOI]

Denise de Oliveira

,

Ana L. C. Bazzan

,

Bruno Castro da Silva

,

Eduardo W. Basso

,

Proceedings of the 4th European Workshop on Multi-Agent Systems EUMAS'06, 2006

ITSUMO: an Intelligent Transportation System for Urban Mobility.

[DOI]

Bruno Castro da Silva

,

,

Denise de Oliveira

,

Ana L. C. Bazzan

Proceedings of the 5th International Joint Conference on Autonomous Agents and Multiagent Systems (AAMAS 2006), 2006

Improving reinforcement learning with context detection.

[DOI]

Bruno Castro da Silva

,

Eduardo W. Basso

,

Filipo Studzinski Perotto

,

Ana L. C. Bazzan

,

Paulo Martins Engel

Proceedings of the 5th International Joint Conference on Autonomous Agents and Multiagent Systems (AAMAS 2006), 2006

RL-CD: Dealing with Non-Stationarity in Reinforcement Learning.

[DOI]

Bruno Castro da Silva

,

Eduardo W. Basso

,

Ana L. C. Bazzan

,

Paulo Martins Engel

Proceedings of the Proceedings, 2006

2004

ITSUMO: An Intelligent Transportation System for Urban Mobility.

[DOI]

Bruno Castro da Silva

,

Ana L. C. Bazzan

,

Gustavo Kuhn Andriotti

,

,

Denise de Oliveira

Proceedings of the Innovative Internet Community Systems, 4th InternationalWorkshop, 2004

Loading...