Xinyu Chen

Orcid: 0009-0005-9857-1614

Affiliations:

Harbin Institute of Technology Shenzhen, Department of Computer Science and Technology, Shenzhen, China

According to our database¹, Xinyu Chen authored at least 13 papers between 2023 and 2025.

Collaborative distances:

Dijkstra number² of four.
Erdős number³ of four.

Timeline

Legend:

Book

In proceedings

Article

PhD thesis

Dataset

Other

Bibliography

2025

UniMoE-Audio: Unified Speech and Music Generation with Dynamic-Capacity MoE.

[BibT_eX]

[DOI]

CoRR, October, 2025

AniMaker: Automated Multi-Agent Animated Storytelling with MCTS-Driven Clip Generation.

[BibT_eX]

[DOI]

CoRR, June, 2025

VerIPO: Cultivating Long Reasoning in Video-LLMs via Verifier-Gudied Iterative Policy Optimization.

[BibT_eX]

[DOI]

CoRR, May, 2025

Perception, Reason, Think, and Plan: A Survey on Large Multimodal Reasoning Models.

[BibT_eX]

[DOI]

CoRR, May, 2025

VideoVista-CulturalLingo: 360<sup>°</sup> Horizons-Bridging Cultures, Languages, and Domains in Video Comprehension.

[BibT_eX]

[DOI]

CoRR, April, 2025

VideoVista-CulturalLingo: 360° Horizons-Bridging Cultures, Languages, and Domains in Video Comprehension.

[BibT_eX]

[DOI]

Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), 2025

2024

LMEye: An Interactive Perception Network for Large Language Models.

[BibT_eX]

[DOI]

IEEE Trans. Multim., 2024

VideoVista: A Versatile Benchmark for Video Understanding and Reasoning.

[BibT_eX]

[DOI]

CoRR, 2024

LLMs Meet Long Video: Advancing Long Video Comprehension with An Interactive Visual Adapter in LLMs.

[BibT_eX]

[DOI]

CoRR, 2024

Cognitive Visual-Language Mapper: Advancing Multimodal Comprehension with Enhanced Visual Knowledge Alignment.

[BibT_eX]

[DOI]

Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), 2024

2023

A Comprehensive Evaluation of GPT-4V on Knowledge-Intensive Visual Question Answering.

[BibT_eX]

[DOI]

CoRR, 2023

LMEye: An Interactive Perception Network for Large Language Models.

[BibT_eX]

[DOI]

CoRR, 2023

A Multi-Modal Context Reasoning Approach for Conditional Inference on Joint Textual and Visual Clues.

[BibT_eX]

[DOI]

Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), 2023

Xinyu Chen

Timeline

Legend:

Links

Online presence:

On csauthors.net:

Bibliography

Loading...