Xiaoteng Ma

Orcid: 0000-0002-7250-6268

According to our database¹, Xiaoteng Ma authored at least 52 papers between 2018 and 2026.

Collaborative distances:

Dijkstra number² of four.
Erdős number³ of four.

Timeline

Legend:

Book In proceedings Article PhD thesis Dataset Other

Links

On csauthors.net:

Bibliography

2026

δ-mem: Efficient Online Memory for Large Language Models.

[BibT_eX]

[DOI]

CoRR, May, 2026

From Word to World: Can Large Language Models be Implicit Text-based World Models?

[BibT_eX]

[DOI]

Proceedings of the 64th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), 2026

2025

Where LLM Agents Fail and How They can Learn From Failures.

[BibT_eX]

[DOI]

CoRR, September, 2025

Integrating Diffusion-based Multi-task Learning with Online Reinforcement Learning for Robust Quadruped Robot Control.

[BibT_eX]

[DOI]

CoRR, July, 2025

Label Unbalance in High-frequency Trading.

[BibT_eX]

[DOI]

CoRR, March, 2025

CVaR-Constrained Policy Optimization for Safe Reinforcement Learning.

[BibT_eX]

[DOI]

IEEE Trans. Neural Networks Learn. Syst., January, 2025

Deep Learning and Supply Chain based Enterprise Strategic Marketing Operation Management System Construction.

[BibT_eX]

[DOI]

Xiaoteng Ma

Liufeng Wang

Scalable Comput. Pract. Exp., 2025

DSAC: Distributional Soft Actor-Critic for Risk-Sensitive Reinforcement Learning.

[BibT_eX]

[DOI]

J. Artif. Intell. Res., 2025

Cross-Domain Offline Policy Adaptation with Optimal Transport and Dataset Constraint.

[BibT_eX]

[DOI]

Proceedings of the Thirteenth International Conference on Learning Representations, 2025

Episodic Novelty Through Temporal Distance.

[BibT_eX]

[DOI]

Proceedings of the Thirteenth International Conference on Learning Representations, 2025

2024

KEPC-Push: A Knowledge-Enhanced Proactive Content Push Strategy for Edge-Assisted Video Feed Streaming.

[BibT_eX]

[DOI]

Proceedings of the 2024 USENIX Annual Technical Conference, 2024

NeuralPlane: An Efficiently Parallelizable Platform for Fixed-wing Aircraft Control with Reinforcement Learning.

[BibT_eX]

[DOI]

Proceedings of the Advances in Neural Information Processing Systems 37: Annual Conference on Neural Information Processing Systems 2024, 2024

Smart Data-Driven Proactive Push to Edge Network for User-Generated Videos.

[BibT_eX]

[DOI]

Proceedings of the IEEE INFOCOM 2024, 2024

Single-Trajectory Distributionally Robust Reinforcement Learning.

[BibT_eX]

[DOI]

Proceedings of the Forty-first International Conference on Machine Learning, 2024

SEABO: A Simple Search-Based Method for Offline Imitation Learning.

[BibT_eX]

[DOI]

Proceedings of the Twelfth International Conference on Learning Representations, 2024

Efficient Multi-agent Reinforcement Learning by Planning.

[BibT_eX]

[DOI]

Proceedings of the Twelfth International Conference on Learning Representations, 2024

Learning Diverse Risk Preferences in Population-Based Self-Play.

[BibT_eX]

[DOI]

Proceedings of the Thirty-Eighth AAAI Conference on Artificial Intelligence, 2024

2023

A unified algorithm framework for mean-variance optimization in discounted Markov decision processes.

[BibT_eX]

[DOI]

Shuai Ma

Xiaoteng Ma

Li Xia

Eur. J. Oper. Res., December, 2023

VRCT: A Viewport Reconstruction-Based 360° Video Caching Solution for Tile-Adaptive Streaming.

[BibT_eX]

[DOI]

IEEE Trans. Broadcast., September, 2023

What is Essential for Unseen Goal Generalization of Offline Goal-conditioned RL?

[BibT_eX]

[DOI]

CoRR, 2023

Uncertainty-driven Trajectory Truncation for Model-based Offline Reinforcement Learning.

[BibT_eX]

[DOI]

CoRR, 2023

Single-Trajectory Distributionally Robust Reinforcement Learning.

[BibT_eX]

[DOI]

CoRR, 2023

Cross-Domain Policy Adaptation via Value-Guided Data Filtering.

[BibT_eX]

[DOI]

Proceedings of the Advances in Neural Information Processing Systems 36: Annual Conference on Neural Information Processing Systems 2023, 2023

Mean-Semivariance Policy Optimization via Risk-Averse Reinforcement Learning (Extended Abstract).

[BibT_eX]

[DOI]

Proceedings of the Thirty-Second International Joint Conference on Artificial Intelligence, 2023

What is Essential for Unseen Goal Generalization of Offline Goal-conditioned RL?

[BibT_eX]

[DOI]

Proceedings of the International Conference on Machine Learning, 2023

Uncertainty-Driven Trajectory Truncation for Data Augmentation in Offline Reinforcement Learning.

[BibT_eX]

[DOI]

Proceedings of the ECAI 2023 - 26th European Conference on Artificial Intelligence, September 30 - October 4, 2023, Kraków, Poland, 2023

2022

Learning-Based Joint QoE Optimization for Adaptive Video Streaming Based on Smart Edge.

[BibT_eX]

[DOI]

IEEE Trans. Netw. Serv. Manag., 2022

QAVA: QoE-Aware Adaptive Video Bitrate Aggregation for HTTP Live Streaming Based on Smart Edge Computing.

[BibT_eX]

[DOI]

IEEE Trans. Broadcast., 2022

Mean-Semivariance Policy Optimization via Risk-Averse Reinforcement Learning.

[BibT_eX]

[DOI]

J. Artif. Intell. Res., 2022

Exploiting Reward Shifting in Value-Based Deep RL.

[BibT_eX]

[DOI]

CoRR, 2022

Distributionally Robust Offline Reinforcement Learning with Linear Function Approximation.

[BibT_eX]

[DOI]

CoRR, 2022

Knowledge-based Temporal Fusion Network for Interpretable Online Video Popularity Prediction.

[BibT_eX]

[DOI]

Proceedings of the WWW '22: The ACM Web Conference 2022, Virtual Event, Lyon, France, April 25, 2022

MagNet: Cooperative Edge Caching by Automatic Content Congregating.

[BibT_eX]

[DOI]

Proceedings of the WWW '22: The ACM Web Conference 2022, Virtual Event, Lyon, France, April 25, 2022

RORL: Robust Offline Reinforcement Learning via Conservative Smoothing.

[BibT_eX]

[DOI]

Proceedings of the Advances in Neural Information Processing Systems 35: Annual Conference on Neural Information Processing Systems 2022, 2022

Exploit Reward Shifting in Value-Based Deep-RL: Optimistic Curiosity-Based Exploration and Conservative Exploitation via Linear Reward Shaping.

[BibT_eX]

[DOI]

Proceedings of the Advances in Neural Information Processing Systems 35: Annual Conference on Neural Information Processing Systems 2022, 2022

Mildly Conservative Q-Learning for Offline Reinforcement Learning.

[BibT_eX]

[DOI]

Proceedings of the Advances in Neural Information Processing Systems 35: Annual Conference on Neural Information Processing Systems 2022, 2022

Offline Reinforcement Learning with Value-based Episodic Memory.

[BibT_eX]

[DOI]

Proceedings of the Tenth International Conference on Learning Representations, 2022

Efficient Continuous Control with Double Actors and Regularized Critics.

[BibT_eX]

[DOI]

Proceedings of the Thirty-Sixth AAAI Conference on Artificial Intelligence, 2022

2021

Video Super-Resolution and Caching - An Edge-Assisted Adaptive Video Streaming Solution.

[BibT_eX]

[DOI]

IEEE Trans. Broadcast., 2021

Learning to Discover Task-Relevant Features for Interpretable Reinforcement Learning.

[BibT_eX]

[DOI]

IEEE Robotics Autom. Lett., 2021

MGPSN: Motion-Guided Pseudo Siamese Network for Indoor Video Head Detection.

[BibT_eX]

[DOI]

CoRR, 2021

Modeling the Interaction between Agents in Cooperative Multi-Agent Reinforcement Learning.

[BibT_eX]

[DOI]

CoRR, 2021

Believe What You See: Implicit Constraint Approach for Offline Multi-Agent Reinforcement Learning.

[BibT_eX]

[DOI]

Proceedings of the Advances in Neural Information Processing Systems 34: Annual Conference on Neural Information Processing Systems 2021, 2021

Average-Reward Reinforcement Learning with Trust Region Methods.

[BibT_eX]

[DOI]

Proceedings of the Thirtieth International Joint Conference on Artificial Intelligence, 2021

Modeling the Interaction between Agents in Cooperative Multi-Agent Reinforcement Learning.

[BibT_eX]

[DOI]

Proceedings of the AAMAS '21: 20th International Conference on Autonomous Agents and Multiagent Systems, 2021

2020

SOAC: The Soft Option Actor-Critic Architecture.

[BibT_eX]

[DOI]

CoRR, 2020

Wasserstein Distance guided Adversarial Imitation Learning with Reward Shape Exploration.

[BibT_eX]

[DOI]

CoRR, 2020

Distributional Soft Actor Critic for Risk Sensitive Learning.

[BibT_eX]

[DOI]

CoRR, 2020

Fairness Control of Traffic Light via Deep Reinforcement Learning.

[BibT_eX]

[DOI]

Proceedings of the 16th IEEE International Conference on Automation Science and Engineering, 2020

2019

Steward: smart edge based joint QoE optimization for adaptive video streaming.

[BibT_eX]

[DOI]

Proceedings of the 29th ACM Workshop on Network and Operating Systems Support for Digital Audio and Video, 2019

Bi-level Proximal Policy optimization for Stochastic Coordination of EV Charging Load with Uncertain Wind Power.

[BibT_eX]

[DOI]

Teng Long

Xiaoteng Ma

Qing-Shan Jia

Proceedings of the 2019 IEEE Conference on Control Technology and Applications, 2019

2018

Attendance and Security System Based on Building Video Surveillance.

[BibT_eX]

[DOI]

Proceedings of the Advancements in Smart City and Intelligent Building, 2018

Xiaoteng Ma

Timeline

Legend:

Links

On csauthors.net:

Bibliography

Loading...