Jiajun Chai

Orcid: 0000-0002-7611-064X

According to our database¹, Jiajun Chai authored at least 45 papers between 2022 and 2026.

Collaborative distances:

Dijkstra number² of four.
Erdős number³ of four.

Timeline

Legend:

Book In proceedings Article PhD thesis Dataset Other

Links

On csauthors.net:

Bibliography

2026

Are Full Rollouts Necessary for On-Policy Distillation?

[BibT_eX]

[DOI]

CoRR, May, 2026

Joint Training of Multi-Token Prediction in Reinforcement Learning via Optimal Coefficient Calibration.

[BibT_eX]

[DOI]

CoRR, May, 2026

ZipRL: Adaptive Multi-Turn Context Compression with Hindsight Response Replay.

[BibT_eX]

[DOI]

CoRR, May, 2026

When Self-Belief Misleads: Active Label Acquisition for Reinforcement Learning with Verifiable Rewards.

[BibT_eX]

[DOI]

CoRR, May, 2026

AMR-SD: Asymmetric Meta-Reflective Self-Distillation for Token-Level Credit Assignment.

[BibT_eX]

[DOI]

CoRR, May, 2026

Implicit Hierarchical GRPO: Decoupling Tool Invocation from Execution for Tool-Integrated Mathematical Reasoning.

[BibT_eX]

[DOI]

CoRR, May, 2026

RecRM-Bench: Benchmarking Multidimensional Reward Modeling for Agentic Recommender Systems.

[BibT_eX]

[DOI]

CoRR, May, 2026

ResRL: Boosting LLM Reasoning via Negative Sample Projection Residual Reinforcement Learning.

[BibT_eX]

[DOI]

CoRR, May, 2026

AutoSearch: Adaptive Search Depth for Efficient Agentic RAG via Reinforcement Learning.

[BibT_eX]

[DOI]

CoRR, April, 2026

π-Play: Multi-Agent Self-Play via Privileged Self-Distillation without External Data.

[BibT_eX]

[DOI]

CoRR, April, 2026

CDRRM: Contrast-Driven Rubric Generation for Reliable and Interpretable Reward Modeling.

[BibT_eX]

[DOI]

CoRR, March, 2026

Rethinking Personalization in Large Language Models at the Token Level.

[BibT_eX]

[DOI]

CoRR, March, 2026

SAE as a Crystal Ball: Interpretable Features Predict Cross-domain Transferability of LLMs without Training.

[BibT_eX]

[DOI]

CoRR, March, 2026

CPIG: Leveraging Consistency Policy With Intention Guidance for Multiagent Exploration.

[BibT_eX]

[DOI]

IEEE Trans. Cogn. Dev. Syst., February, 2026

Contextual Rollout Bandits for Reinforcement Learning with Verifiable Rewards.

[BibT_eX]

[DOI]

CoRR, February, 2026

Your Group-Relative Advantage Is Biased.

[BibT_eX]

[DOI]

CoRR, January, 2026

Tacit mechanism: Bridging pre-training of individuality to multi-agent adversarial coordination.

[BibT_eX]

[DOI]

Neural Networks, 2026

Promoting Efficient Reasoning with Verifiable Stepwise Reward.

[BibT_eX]

[DOI]

Proceedings of the Fortieth AAAI Conference on Artificial Intelligence, 2026

2025

AWPO: Enhancing Tool-Use of Large Language Models through Explicit Integration of Reasoning Rewards.

[BibT_eX]

[DOI]

CoRR, December, 2025

ToolForge: A Data Synthesis Pipeline for Multi-Hop Search without Real-World APIs.

[BibT_eX]

[DOI]

CoRR, December, 2025

Training Multi-Image Vision Agents via End2End Reinforcement Learning.

[BibT_eX]

[DOI]

CoRR, December, 2025

LocalSearchBench: Benchmarking Agentic Search in Real-World Local Life Services.

[BibT_eX]

[DOI]

CoRR, December, 2025

From Experience to Strategy: Empowering LLM Agents with Trainable Graph Memory.

[BibT_eX]

[DOI]

CoRR, November, 2025

MTIR-SQL: Multi-turn Tool-Integrated Reasoning Reinforcement Learning for Text-to-SQL.

[BibT_eX]

[DOI]

CoRR, October, 2025

SSL4RL: Revisiting Self-supervised Learning as Intrinsic Reward for Visual-Language Reasoning.

[BibT_eX]

[DOI]

CoRR, October, 2025

ResT: Reshaping Token-Level Policy Gradients for Tool-Use Large Language Models.

[BibT_eX]

[DOI]

CoRR, September, 2025

RLFactory: A Plug-and-Play Reinforcement Learning Post-Training Framework for LLM Multi-Turn Tool-Use.

[BibT_eX]

[DOI]

CoRR, September, 2025

Meta Learning Task Representation in Multiagent Reinforcement Learning: From Global Inference to Local Inference.

[BibT_eX]

[DOI]

IEEE Trans. Neural Networks Learn. Syst., August, 2025

SRFT: A Single-Stage Method with Supervised and Reinforcement Fine-Tuning for Reasoning.

[BibT_eX]

[DOI]

CoRR, June, 2025

LDR: Learning Discrete Representation to Improve Noise Robustness in Multiagent Tasks.

[BibT_eX]

[DOI]

IEEE Trans. Syst. Man Cybern. Syst., January, 2025

Learning Pre-Trained Tacit Behavior for Efficient Multi-Agent Adversarial Coordination.

[BibT_eX]

[DOI]

Proceedings of the 24th International Conference on Autonomous Agents and Multiagent Systems, 2025

DipLLM: Fine-Tuning LLM for Strategic Decision-making in Diplomacy.

[BibT_eX]

[DOI]

Proceedings of the Forty-second International Conference on Machine Learning, 2025

INS: Interaction-aware Synthesis to Enhance Offline Multi-agent Reinforcement Learning.

[BibT_eX]

[DOI]

Proceedings of the Thirteenth International Conference on Learning Representations, 2025

Empowering LLM Agents with Zero-Shot Optimal Decision-Making through Q-learning.

[BibT_eX]

[DOI]

Proceedings of the Thirteenth International Conference on Learning Representations, 2025

UIOrchestra: Generating High-Fidelity Code from UI Designs with a Multi-agent System.

[BibT_eX]

[DOI]

Proceedings of the Findings of the Association for Computational Linguistics: EMNLP 2025, 2025

RLAE: Reinforcement Learning-Assisted Ensemble for LLMs.

[BibT_eX]

[DOI]

Proceedings of the 2025 Conference on Empirical Methods in Natural Language Processing, 2025

2024

NVIF: Neighboring Variational Information Flow for Cooperative Large-Scale Multiagent Reinforcement Learning.

[BibT_eX]

[DOI]

Jiajun Chai

Yuanheng Zhu

Dongbin Zhao

IEEE Trans. Neural Networks Learn. Syst., December, 2024

CPEG: Leveraging Consistency Policy with Consensus Guidance for Multi-agent Exploration.

[BibT_eX]

[DOI]

CoRR, 2024

Aligning Credit for Multi-Agent Cooperation via Model-based Counterfactual Imagination.

[BibT_eX]

[DOI]

Proceedings of the 23rd International Conference on Autonomous Agents and Multiagent Systems, 2024

2023

A Hierarchical Deep Reinforcement Learning Framework for 6-DOF UCAV Air-to-Air Combat.

[BibT_eX]

[DOI]

IEEE Trans. Syst. Man Cybern. Syst., September, 2023

UNMAS: Multiagent Reinforcement Learning for Unshaped Cooperative Scenarios.

[BibT_eX]

[DOI]

IEEE Trans. Neural Networks Learn. Syst., April, 2023

2022

NVIF: Neighboring Variational Information Flow for Large-Scale Cooperative Multi-Agent Scenarios.

[BibT_eX]

[DOI]

Jiajun Chai

Yuanheng Zhu

Dongbin Zhao

CoRR, 2022

UNMAS: Multi-Agent Reinforcement Learning for Unshaped Cooperative Scenarios.

[BibT_eX]

[DOI]

CoRR, 2022

Learning Continuous 3-DoF Air-to-Air Close-in Combat Strategy using Proximal Policy Optimization.

[BibT_eX]

[DOI]

Proceedings of the IEEE Conference on Games, CoG 2022, Beijing, 2022

LILAC: Learning a Leader for Cooperative Reinforcement Learning.

[BibT_eX]

[DOI]

Proceedings of the IEEE Conference on Games, CoG 2022, Beijing, 2022

Jiajun Chai

Timeline

Legend:

Links

On csauthors.net:

Bibliography

Loading...