Optimal Fixed-Budget Best Arm Identification using the Augmented Inverse Probability Weighting Estimator in Two-Armed Gaussian Bandits with Unknown Variances.

[BibT_eX]

[DOI]

Masahiro Kato

Kaito Ariu

CoRR, 2022

Provably Efficient Reinforcement Learning in Partially Observable Dynamical Systems.

[BibT_eX]

[DOI]

Proceedings of the Advances in Neural Information Processing Systems 35: Annual Conference on Neural Information Processing Systems 2022, 2022

Efficient Reinforcement Learning in Block MDPs: A Model-free Representation Learning approach.

[BibT_eX]

[DOI]

Proceedings of the International Conference on Machine Learning, 2022

A Minimax Learning Approach to Off-Policy Evaluation in Confounded Partially Observable Markov Decision Processes.

[BibT_eX]

[DOI]

Proceedings of the International Conference on Machine Learning, 2022

Representation Learning for Online and Offline RL in Low-rank MDPs.

[BibT_eX]

[DOI]

Masatoshi Uehara

Xuezhou Zhang

Wen Sun

Proceedings of the Tenth International Conference on Learning Representations, 2022

Pessimistic Model-based Offline Reinforcement Learning under Partial Coverage.

[BibT_eX]

[DOI]

Masatoshi Uehara

Wen Sun

Proceedings of the Tenth International Conference on Learning Representations, 2022

2021

Information criteria for non-normalized models.

[BibT_eX]

[DOI]

Takeru Matsuda

Masatoshi Uehara

Aapo Hyvärinen

J. Mach. Learn. Res., 2021

A Minimax Learning Approach to Off-Policy Evaluation in Partially Observable Markov Decision Processes.

[BibT_eX]

[DOI]

Chengchun Shi

Masatoshi Uehara

Nan Jiang

CoRR, 2021

Pessimistic Model-based Offline RL: PAC Bounds and Posterior Sampling under Partial Coverage.

[BibT_eX]

[DOI]

Masatoshi Uehara

Wen Sun

CoRR, 2021

Mitigating Covariate Shift in Imitation Learning via Offline Data Without Great Coverage.

[BibT_eX]

[DOI]

CoRR, 2021

Causal Inference Under Unmeasured Confounding With Negative Controls: A Minimax Learning Approach.

[BibT_eX]

[DOI]

Nathan Kallus

Xiaojie Mao

Masatoshi Uehara

CoRR, 2021

Finite Sample Analysis of Minimax Offline Reinforcement Learning: Completeness, Fast Rates and First-Order Efficiency.

[BibT_eX]

[DOI]

CoRR, 2021

Mitigating Covariate Shift in Imitation Learning via Offline Data With Partial Coverage.

[BibT_eX]

[DOI]

Proceedings of the Advances in Neural Information Processing Systems 34: Annual Conference on Neural Information Processing Systems 2021, 2021

Optimal Off-Policy Evaluation from Multiple Logging Policies.

[BibT_eX]

[DOI]

Nathan Kallus

Yuta Saito

Masatoshi Uehara

Proceedings of the 38th International Conference on Machine Learning, 2021

Fast Rates for the Regret of Offline Reinforcement Learning.

[BibT_eX]

[DOI]

Yichun Hu

Nathan Kallus

Masatoshi Uehara

Proceedings of the Conference on Learning Theory, 2021

2020

Double Reinforcement Learning for Efficient Off-Policy Evaluation in Markov Decision Processes.

[BibT_eX]

[DOI]

Nathan Kallus

Masatoshi Uehara

J. Mach. Learn. Res., 2020

Efficient Evaluation of Natural Stochastic Policies in Offline Reinforcement Learning.

[BibT_eX]

[DOI]

Nathan Kallus

Masatoshi Uehara

CoRR, 2020

Off-Policy Evaluation and Learning for External Validity under a Covariate Shift.

[BibT_eX]

[DOI]

Masatoshi Uehara

Masahiro Kato

Shota Yasui

Proceedings of the Advances in Neural Information Processing Systems 33: Annual Conference on Neural Information Processing Systems 2020, 2020

Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic Policies.

[BibT_eX]

[DOI]

Nathan Kallus

Masatoshi Uehara

Proceedings of the Advances in Neural Information Processing Systems 33: Annual Conference on Neural Information Processing Systems 2020, 2020

Minimax Weight and Q-Function Learning for Off-Policy Evaluation.

[BibT_eX]

[DOI]

Masatoshi Uehara

Jiawei Huang

Nan Jiang

Proceedings of the 37th International Conference on Machine Learning, 2020

Statistically Efficient Off-Policy Policy Gradients.

[BibT_eX]

[DOI]

Nathan Kallus

Masatoshi Uehara

Proceedings of the 37th International Conference on Machine Learning, 2020

Double Reinforcement Learning for Efficient and Robust Off-Policy Evaluation.

[BibT_eX]

[DOI]

Nathan Kallus

Masatoshi Uehara

Proceedings of the 37th International Conference on Machine Learning, 2020

Imputation estimators for unnormalized models with missing data.

[BibT_eX]

[DOI]

Masatoshi Uehara

Takeru Matsuda

Jae Kwang Kim

Proceedings of the 23rd International Conference on Artificial Intelligence and Statistics, 2020

A Unified Statistically Efficient Estimation Framework for Unnormalized Models.

[BibT_eX]

[DOI]

Proceedings of the 23rd International Conference on Artificial Intelligence and Statistics, 2020

2019

Localized Debiased Machine Learning: Efficient Estimation of Quantile Treatment Effects, Conditional Value at Risk, and Beyond.

[BibT_eX]

[DOI]

Nathan Kallus

Xiaojie Mao

Masatoshi Uehara

CoRR, 2019

Minimax Weight and Q-Function Learning for Off-Policy Evaluation.

[BibT_eX]

[DOI]

Masatoshi Uehara

Nan Jiang

CoRR, 2019

Efficiently Breaking the Curse of Horizon: Double Reinforcement Learning in Infinite-Horizon Processes.

[BibT_eX]

[DOI]

Nathan Kallus

Masatoshi Uehara

CoRR, 2019

Unified estimation framework for unnormalized models with statistical efficiency.

[BibT_eX]

[DOI]

CoRR, 2019

Intrinsically Efficient, Stable, and Bounded Off-Policy Evaluation for Reinforcement Learning.

[BibT_eX]

[DOI]

Nathan Kallus

Masatoshi Uehara

Proceedings of the Advances in Neural Information Processing Systems 32: Annual Conference on Neural Information Processing Systems 2019, 2019

2018

Analysis of Noise Contrastive Estimation from the Perspective of Asymptotic Variance.

[BibT_eX]

[DOI]

Masatoshi Uehara

Takeru Matsuda

Fumiyasu Komaki

CoRR, 2018

Masatoshi Uehara

Timeline

Legend:

Links

On csauthors.net:

Bibliography

Loading...