Huanjin Yao

According to our database¹, Huanjin Yao authored at least 21 papers between 2023 and 2026.

Collaborative distances:

Dijkstra number² of four.
Erdős number³ of four.

Timeline

Legend:

Book In proceedings Article PhD thesis Dataset Other

Links

On csauthors.net:

Bibliography

2026

Valley3: Scaling Omni Foundation Models for E-commerce.

[BibT_eX]

[DOI]

CoRR, May, 2026

MM-DeepResearch: A Simple and Effective Multimodal Agentic Search Baseline.

[BibT_eX]

[DOI]

CoRR, March, 2026

Advancing Multimodal Judge Models through a Capability-Oriented Benchmark and MCTS-Driven Data Generation.

[BibT_eX]

[DOI]

CoRR, March, 2026

CoLoGen: Progressive Learning of Concept-Localization Duality for Unified Image Generation.

[BibT_eX]

[DOI]

CoRR, February, 2026

R1-SyntheticVL: Is Synthetic Data from Generative Models Ready for Multimodal Large Language Model?

[BibT_eX]

[DOI]

CoRR, February, 2026

DeepResearchEval: An Automated Framework for Deep Research Task Construction and Agentic Evaluation.

[BibT_eX]

[DOI]

CoRR, January, 2026

2025

A Survey on Agentic Multimodal Large Language Models.

[BibT_eX]

[DOI]

CoRR, October, 2025

Tiny-R1V: Lightweight Multimodal Unified Reasoning Model via Model Merging.

[BibT_eX]

[DOI]

CoRR, October, 2025

MAPO: Mixed Advantage Policy Optimization.

[BibT_eX]

[DOI]

CoRR, September, 2025

MMReason: An Open-Ended Multi-Modal Multi-Step Reasoning Benchmark for MLLMs Toward AGI.

[BibT_eX]

[DOI]

CoRR, June, 2025

R1-Compress: Long Chain-of-Thought Compression via Chunk Compression and Search.

[BibT_eX]

[DOI]

CoRR, May, 2025

R1-ShareVL: Incentivizing Reasoning Capability of Multimodal Large Language Models via Share-GRPO.

[BibT_eX]

[DOI]

CoRR, May, 2025

R1-ShareVL: Incentivizing Reasoning Capabilities of Multimodal Large Language Models via Share-GRPO.

[BibT_eX]

[DOI]

Proceedings of the Advances in Neural Information Processing Systems 38: Annual Conference on Neural Information Processing Systems 2025, 2025

Panacea: Mitigating Harmful Fine-tuning for Large Language Models via Post-fine-tuning Perturbation.

[BibT_eX]

[DOI]

Proceedings of the Advances in Neural Information Processing Systems 38: Annual Conference on Neural Information Processing Systems 2025, 2025

R1-VL: Learning to Reason with Multimodal Large Language Models via Step-Wise Group Relative Policy Optimization.

[BibT_eX]

[DOI]

Proceedings of the IEEE/CVF International Conference on Computer Vision, 2025

MMReason: An Open-Ended Multi-Modal Multi-Step Reasoning Benchmark for MLLMs Toward AGI.

[BibT_eX]

[DOI]

Proceedings of the IEEE/CVF International Conference on Computer Vision, 2025

2024

Mulberry: Empowering MLLM with o1-like Reasoning and Reflection via Collective Monte Carlo Tree Search.

[BibT_eX]

[DOI]

CoRR, 2024

Automated Multi-level Preference for MLLMs.

[BibT_eX]

[DOI]

Proceedings of the Advances in Neural Information Processing Systems 37: Annual Conference on Neural Information Processing Systems 2024, 2024

Dense Connector for MLLMs.

[BibT_eX]

[DOI]

Proceedings of the Advances in Neural Information Processing Systems 37: Annual Conference on Neural Information Processing Systems 2024, 2024

2023

Side4Video: Spatial-Temporal Side Network for Memory-Efficient Image-to-Video Transfer Learning.

[BibT_eX]

[DOI]

Huanjin Yao

Wenhao Wu

Zhiheng Li

CoRR, 2023

GPT4Vis: What Can GPT-4 Do for Zero-shot Visual Recognition?

[BibT_eX]

[DOI]

CoRR, 2023

Huanjin Yao

Timeline

Legend:

Links

On csauthors.net:

Bibliography

Loading...