Ruihang Chu

Orcid: 0000-0001-9057-745X

According to our database¹, Ruihang Chu authored at least 53 papers between 2019 and 2026.

Collaborative distances:

Dijkstra number² of four.
Erdős number³ of three.

Timeline

Legend:

Book In proceedings Article PhD thesis Dataset Other

Links

On csauthors.net:

Bibliography

2026

Smaller Models are Natural Explorers for Policy-Level Diversity in GRPO.

[BibT_eX]

[DOI]

CoRR, May, 2026

AVBench: Human-Aligned and Automated Evaluation Benchmark for Audio-Video Generative Models.

[BibT_eX]

[DOI]

CoRR, May, 2026

MSAVBench: Towards Comprehensive and Reliable Evaluation of Multi-Shot Audio-Video Generation.

[BibT_eX]

[DOI]

CoRR, May, 2026

LongLive-2.0: An NVFP4 Parallel Infrastructure for Long Video Generation.

[BibT_eX]

[DOI]

CoRR, May, 2026

DiffusionOPD: A Unified Perspective of On-Policy Distillation in Diffusion Models.

[BibT_eX]

[DOI]

CoRR, May, 2026

Video-Zero: Self-Evolution Video Understanding.

[BibT_eX]

[DOI]

CoRR, May, 2026

Velocity-Space 3D Asset Editing.

[BibT_eX]

[DOI]

CoRR, May, 2026

Mini-Gemini: Mining the Potential of Multi-Modality Vision Language Models.

[BibT_eX]

[DOI]

IEEE Trans. Pattern Anal. Mach. Intell., March, 2026

DreamVideo-Omni: Omni-Motion Controlled Multi-Subject Video Customization with Latent Identity Reinforcement Learning.

[BibT_eX]

[DOI]

CoRR, March, 2026

From Narrow to Panoramic Vision: Attention-Guided Cold-Start Reshapes Multimodal Reasoning.

[BibT_eX]

[DOI]

CoRR, March, 2026

SIN-Bench: Tracing Native Evidence Chains in Long-Context Multimodal Scientific Interleaved Literature.

[BibT_eX]

[DOI]

CoRR, January, 2026

X-Coder: Advancing Competitive Programming with Fully Synthetic Tasks, Solutions, and Tests.

[BibT_eX]

[DOI]

CoRR, January, 2026

O-DisCo-Edit: Object Distortion Control for Unified Realistic Video Editing.

[BibT_eX]

[DOI]

Proceedings of the Fortieth AAAI Conference on Artificial Intelligence, 2026

2025

DreamOmni3: Scribble-based Editing and Generation.

[BibT_eX]

[DOI]

CoRR, December, 2025

VideoZoomer: Reinforcement-Learned Temporal Focusing for Long Video Reasoning.

[BibT_eX]

[DOI]

CoRR, December, 2025

Wan-Move: Motion-controllable Video Generation via Latent Trajectory Guidance.

[BibT_eX]

[DOI]

CoRR, December, 2025

Nav-R<sup>2</sup> Dual-Relation Reasoning for Generalizable Open-Vocabulary Object-Goal Navigation.

[BibT_eX]

[DOI]

CoRR, December, 2025

A Survey of Reasoning with Foundation Models: Concepts, Methodologies, and Outlook.

[BibT_eX]

[DOI]

ACM Comput. Surv., November, 2025

Enhancing Diffusion-based Restoration Models via Difficulty-Adaptive Reinforcement Learning with IQA Reward.

[BibT_eX]

[DOI]

CoRR, November, 2025

Boosting Fidelity for Pre-Trained-Diffusion-Based Low-Light Image Enhancement via Condition Refinement.

[BibT_eX]

[DOI]

CoRR, October, 2025

Generative Universal Verifier as Multimodal Meta-Reasoner.

[BibT_eX]

[DOI]

CoRR, October, 2025

AdaViewPlanner: Adapting Video Diffusion Models for Viewpoint Planning in 4D Scenes.

[BibT_eX]

[DOI]

CoRR, October, 2025

SANA-Video: Efficient Video Generation with Block Linear Diffusion Transformer.

[BibT_eX]

[DOI]

CoRR, September, 2025

LongLive: Real-time Interactive Long Video Generation.

[BibT_eX]

[DOI]

CoRR, September, 2025

A Generative Foundation Model for Chest Radiography.

[BibT_eX]

[DOI]

CoRR, September, 2025

Exploiting Discriminative Codebook Prior for Autoregressive Image Generation.

[BibT_eX]

[DOI]

CoRR, August, 2025

DreamVE: Unified Instruction-based Image and Video Editing.

[BibT_eX]

[DOI]

CoRR, August, 2025

TTS-VAR: A Test-Time Scaling Framework for Visual Auto-Regressive Generation.

[BibT_eX]

[DOI]

CoRR, July, 2025

AnyCap Project: A Unified Framework, Dataset, and Benchmark for Controllable Omni-modal Captioning.

[BibT_eX]

[DOI]

CoRR, July, 2025

Zero-P-to-3: Zero-Shot Partial-View Images to 3D Object.

[BibT_eX]

[DOI]

CoRR, May, 2025

Wan: Open and Advanced Large-Scale Video Generative Models.

[BibT_eX]

[DOI]

CoRR, March, 2025

IterPref: Focal Preference Learning for Code Generation via Iterative Debugging.

[BibT_eX]

[DOI]

CoRR, March, 2025

The Matrix: Infinite-Horizon World Generation with Real-Time Moving Control.

[BibT_eX]

[DOI]

Proceedings of the Advances in Neural Information Processing Systems 38: Annual Conference on Neural Information Processing Systems 2025, 2025

DialogGen: Multi-modal Interactive Dialogue System with Multi-turn Text-Image Generation.

[BibT_eX]

[DOI]

Proceedings of the Findings of the Association for Computational Linguistics: NAACL 2025, Albuquerque, New Mexico, USA, April 29, 2025

FreeScale: Unleashing the Resolution of Diffusion Models via Tuning-Free Scale Fusion.

[BibT_eX]

[DOI]

Proceedings of the IEEE/CVF International Conference on Computer Vision, 2025

Teaching Your Models to Understand Code via Focal Preference Alignment.

[BibT_eX]

[DOI]

Proceedings of the 2025 Conference on Empirical Methods in Natural Language Processing, 2025

InSerter: Speech Instruction Following with Unsupervised Interleaved Pre-training.

[BibT_eX]

[DOI]

Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), 2025

2024

DriveCoT: Integrating Chain-of-Thought Reasoning with End-to-End Driving.

[BibT_eX]

[DOI]

CoRR, 2024

DialogGen: Multi-modal Interactive Dialogue System for Multi-turn Text-to-Image Generation.

[BibT_eX]

[DOI]

CoRR, 2024

2023

A Survey of Reasoning with Foundation Models.

[BibT_eX]

[DOI]

CoRR, 2023

DiT-3D: Exploring Plain Diffusion Transformers for 3D Shape Generation.

[BibT_eX]

[DOI]

CoRR, 2023

DiT-3D: Exploring Plain Diffusion Transformers for 3D Shape Generation.

[BibT_eX]

[DOI]

Proceedings of the Advances in Neural Information Processing Systems 36: Annual Conference on Neural Information Processing Systems 2023, 2023

DiffComplete: Diffusion-based Generative 3D Shape Completion.

[BibT_eX]

[DOI]

Proceedings of the Advances in Neural Information Processing Systems 36: Annual Conference on Neural Information Processing Systems 2023, 2023

Mask-Attention-Free Transformer for 3D Instance Segmentation.

[BibT_eX]

[DOI]

Proceedings of the IEEE/CVF International Conference on Computer Vision, 2023

TriVol: Point Cloud Rendering via Triple Volumes.

[BibT_eX]

[DOI]

Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2023

Command-driven Articulated Object Understanding and Manipulation.

[BibT_eX]

[DOI]

Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2023

2022

ICM-3D: Instantiated Category Modeling for 3D Instance Segmentation.

[BibT_eX]

[DOI]

IEEE Robotics Autom. Lett., 2022

TWIST: Two-Way Inter-label Self-Training for Semi-supervised 3D Instance Segmentation.

[BibT_eX]

[DOI]

Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2022

2021

Simultaneous Semantic and Collision Learning for 6-DoF Grasp Pose Estimation.

[BibT_eX]

[DOI]

Proceedings of the IEEE/RSJ International Conference on Intelligent Robots and Systems, 2021

Scale-Aware Automatic Augmentation for Object Detection.

[BibT_eX]

[DOI]

Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2021

2020

Co-Actuation: A Method for Achieving High Stiffness and Low Inertia for Haptic Devices.

[BibT_eX]

[DOI]

IEEE Trans. Haptics, 2020

2019

An Intuitive End-to-End Human-UAV Interaction System for Field Exploration.

[BibT_eX]

[DOI]

Frontiers Neurorobotics, 2019

Vehicle Re-Identification With Viewpoint-Aware Metric Learning.

[BibT_eX]

[DOI]

Proceedings of the 2019 IEEE/CVF International Conference on Computer Vision, 2019

Ruihang Chu

Timeline

Legend:

Links

On csauthors.net:

Bibliography

Loading...