Yang Shi

Orcid: 0009-0003-9241-236X

Affiliations:

Peking University, Beijing, China

According to our database¹, Yang Shi authored at least 31 papers between 2025 and 2026.

Collaborative distances:

Dijkstra number² of four.
Erdős number³ of four.

Timeline

Legend:

Book In proceedings Article PhD thesis Dataset Other

Bibliography

2026

LongAV-Compass: Towards Unified Evaluation of Minute-Scale Audio-Visual Generation Across T2AV, I2AV, and V2AV.

[BibT_eX]

[DOI]

CoRR, May, 2026

Beyond Rational Illusion: Behaviorally Realistic Strategic Classification.

[BibT_eX]

[DOI]

CoRR, May, 2026

Artifact-Bench: Evaluating MLLMs on Detecting and Assessing the Artifacts of AI-Generated Videos.

[BibT_eX]

[DOI]

CoRR, May, 2026

Edit-Compass & EditReward-Compass: A Unified Benchmark for Image Editing and Reward Modeling.

[BibT_eX]

[DOI]

CoRR, May, 2026

Beyond the Last Layer: Multi-Layer Representation Fusion for Visual Tokenization.

[BibT_eX]

[DOI]

CoRR, May, 2026

OpenWorldLib: A Unified Codebase and Definition of Advanced World Models.

[BibT_eX]

[DOI]

CoRR, April, 2026

Agentic-MME: What Agentic Capability Really Brings to Multimodal Intelligence?

[BibT_eX]

[DOI]

CoRR, April, 2026

VTC-Bench: Evaluating Agentic Multimodal Models via Compositional Visual Tool Chaining.

[BibT_eX]

[DOI]

CoRR, March, 2026

OmniSIFT: Modality-Asymmetric Token Compression for Efficient Omni-modal Large Language Models.

[BibT_eX]

[DOI]

CoRR, February, 2026

Research on World Models Is Not Merely Injecting World Knowledge into Specific Tasks.

[BibT_eX]

[DOI]

CoRR, February, 2026

DiaDem: Advancing Dialogue Descriptions in Audiovisual Video Captioning for Multimodal Large Language Models.

[BibT_eX]

[DOI]

CoRR, January, 2026

CoF-T2I: Video Models as Pure Visual Reasoners for Text-to-Image Generation.

[BibT_eX]

[DOI]

CoRR, January, 2026

Detecting Unobserved Confounders: A Kernelized Regression Approach.

[BibT_eX]

[DOI]

Proceedings of the Fortieth AAAI Conference on Artificial Intelligence, 2026

2025

GRAN-TED: Generating Robust, Aligned, and Nuanced Text Embedding for Diffusion Models.

[BibT_eX]

[DOI]

CoRR, December, 2025

Hybrid Attribution Priors for Explainable and Robust Model Training.

[BibT_eX]

[DOI]

CoRR, December, 2025

Scone: Bridging Composition and Distinction in Subject-Driven Image Generation via Unified Understanding-Generation Modeling.

[BibT_eX]

[DOI]

CoRR, December, 2025

The Unseen Bias: How Norm Discrepancy in Pre-Norm MLLMs Leads to Visual Information Loss.

[BibT_eX]

[DOI]

CoRR, December, 2025

Monet: Reasoning in Latent Visual Space Beyond Images and Language.

[BibT_eX]

[DOI]

CoRR, November, 2025

When Modalities Conflict: How Unimodal Reasoning Uncertainty Governs Preference Dynamics in MLLMs.

[BibT_eX]

[DOI]

CoRR, November, 2025

MorphoBench: A Benchmark with Difficulty Adaptive to Model Reasoning.

[BibT_eX]

[DOI]

CoRR, October, 2025

AVoCaDO: An Audiovisual Video Captioner Driven by Temporal Orchestration.

[BibT_eX]

[DOI]

CoRR, October, 2025

OpenGPT-4o-Image: A Comprehensive Dataset for Advanced Image Generation and Editing.

[BibT_eX]

[DOI]

CoRR, September, 2025

RealUnify: Do Unified Models Truly Benefit from Unification? A Comprehensive Benchmark.

[BibT_eX]

[DOI]

CoRR, September, 2025

BaseReward: A Strong Baseline for Multimodal Reward Model.

[BibT_eX]

[DOI]

CoRR, September, 2025

VersaVid-R1: A Versatile Video Understanding and Reasoning Model from Question Answering to Captioning Tasks.

[BibT_eX]

[DOI]

CoRR, June, 2025

MME-VideoOCR: Evaluating OCR-Based Capabilities of Multimodal LLMs in Video Scenarios.

[BibT_eX]

[DOI]

CoRR, May, 2025

MME-Unify: A Comprehensive Benchmark for Unified Multimodal Understanding and Generation Models.

[BibT_eX]

[DOI]

CoRR, April, 2025

MM-RLHF: The Next Step Forward in Multimodal LLM Alignment.

[BibT_eX]

[DOI]

CoRR, February, 2025

Mavors: Multi-granularity Video Representation for Multimodal Large Language Model.

[BibT_eX]

[DOI]

Proceedings of the 33rd ACM International Conference on Multimedia, 2025

Debiasing Multimodal Large Language Models via Penalization of Language Priors.

[BibT_eX]

[DOI]

Proceedings of the 33rd ACM International Conference on Multimedia, 2025

MM-RLHF: The Next Step Forward in Multimodal LLM Alignment.

[BibT_eX]

[DOI]

Proceedings of the Forty-second International Conference on Machine Learning, 2025

Yang Shi

Timeline

Legend:

Links

Online presence:

On csauthors.net:

Bibliography

Loading...