Yuhui Yin

According to our database¹, Yuhui Yin authored at least 22 papers between 2023 and 2025.

Collaborative distances:

Dijkstra number² of four.
Erdős number³ of four.

Timeline

Legend:

Book

In proceedings

Article

PhD thesis

Dataset

Other

Links

On csauthors.net:

Bibliography

2025

EVTAR: End-to-End Try on with Additional Unpaired Visual Reference.

[BibT_eX]

[DOI]

CoRR, November, 2025

RzenEmbed: Towards Comprehensive Multimodal Retrieval.

[BibT_eX]

[DOI]

CoRR, October, 2025

FG-CLIP 2: A Bilingual Fine-grained Vision-Language Alignment Model.

[BibT_eX]

[DOI]

CoRR, October, 2025

CTA-Flux: Integrating Chinese Cultural Semantics into High-Quality English Text-to-Image Communities.

[BibT_eX]

[DOI]

CoRR, August, 2025

NanoControl: A Lightweight Framework for Precise and Efficient Control in Diffusion Transformer.

[BibT_eX]

[DOI]

CoRR, August, 2025

FLUX-Makeup: High-Fidelity, Identity-Consistent, and Robust Makeup Transfer via Diffusion Transformer.

[BibT_eX]

[DOI]

CoRR, August, 2025

LMM-Det: Make Large Multimodal Models Excel in Object Detection.

[BibT_eX]

[DOI]

CoRR, July, 2025

FG-CLIP: Fine-Grained Visual and Textual Alignment.

[BibT_eX]

[DOI]

CoRR, May, 2025

PlanGen: Towards Unified Layout Planning and Image Generation in Auto-Regressive Vision Language Models.

[BibT_eX]

[DOI]

CoRR, March, 2025

NAMI: Efficient Image Generation via Progressive Rectified Flow Transformers.

[BibT_eX]

[DOI]

CoRR, March, 2025

U-StyDiT: Ultra-high Quality Artistic Style Transfer Using Diffusion Transformers.

[BibT_eX]

[DOI]

CoRR, March, 2025

WISA: World Simulator Assistant for Physics-Aware Text-to-Video Generation.

[BibT_eX]

[DOI]

CoRR, March, 2025

RelaCtrl: Relevance-Guided Efficient Control for Diffusion Transformers.

[BibT_eX]

[DOI]

CoRR, February, 2025

PT-T2I/V: An Efficient Proxy-Tokenized Diffusion Transformer for Text-to-Image/Video-Task.

[BibT_eX]

[DOI]

Proceedings of the Thirteenth International Conference on Learning Representations, 2025

IAA: Inner-Adaptor Architecture Empowers Frozen Large Language Model with Multimodal Capabilities.

[BibT_eX]

[DOI]

Proceedings of the AAAI-25, Sponsored by the Association for the Advancement of Artificial Intelligence, February 25, 2025

Bridge Diffusion Model: Bridge Chinese Text-to-Image Diffusion Model with English Communities.

[BibT_eX]

[DOI]

Proceedings of the AAAI-25, Sponsored by the Association for the Advancement of Artificial Intelligence, February 25, 2025

2024

PCDMD: Physics-constrained dynamic mode decomposition for accurate and robust forecasting of dynamical systems with imperfect data and physics.

[BibT_eX]

[DOI]

Comput. Phys. Commun., 2024

Qihoo-T2X: An Efficiency-Focused Diffusion Transformer via Proxy Tokens for Text-to-Any-Task.

[BibT_eX]

[DOI]

CoRR, 2024

IAA: Inner-Adaptor Architecture Empowers Frozen Large Language Model with Multimodal Capabilities.

[BibT_eX]

[DOI]

CoRR, 2024

FancyVideo: Towards Dynamic and Consistent Video Generation via Cross-frame Textual Guidance.

[BibT_eX]

[DOI]

CoRR, 2024

HiCo: Hierarchical Controllable Diffusion Model for Layout-to-image Generation.

[BibT_eX]

[DOI]

Proceedings of the Advances in Neural Information Processing Systems 38: Annual Conference on Neural Information Processing Systems 2024, 2024

2023

Bridge Diffusion Model: bridge non-English language-native text-to-image diffusion model with English communities.

[BibT_eX]

[DOI]

Shanyuan Liu

Dawei Leng

Yuhui Yin

CoRR, 2023

Yuhui Yin

Timeline

Legend:

Links

On csauthors.net:

Bibliography

Loading...