Wenqi Shao

Orcid: 0000-0003-3781-4086

According to our database¹, Wenqi Shao authored at least 128 papers between 2019 and 2025.

Collaborative distances:

Dijkstra number² of four.
Erdős number³ of three.

Timeline

Legend:

Book

In proceedings

Article

PhD thesis

Dataset

Other

Links

On csauthors.net:

Bibliography

2025

SPOT: Scalable 3D Pre-Training via Occupancy Prediction for Learning Transferable 3D Representations.

[BibT_eX]

[DOI]

IEEE Trans. Pattern Anal. Mach. Intell., November, 2025

Flow-Anything: Learning Real-World Optical Flow Estimation From Large-Scale Single-View Images.

[BibT_eX]

[DOI]

IEEE Trans. Pattern Anal. Mach. Intell., October, 2025

COSMO-RL: Towards Trustworthy LMRMs via Joint Safety and Stability.

[BibT_eX]

[DOI]

CoRR, October, 2025

UniPruning: Unifying Local Metric and Global Feedback for Scalable Sparse LLMs.

[BibT_eX]

[DOI]

CoRR, October, 2025

More Than One Teacher: Adaptive Multi-Guidance Policy Optimization for Diverse Exploration.

[BibT_eX]

[DOI]

CoRR, October, 2025

VTPerception-R1: Enhancing Multimodal Reasoning via Explicit Visual and Textual Perceptual Grounding.

[BibT_eX]

[DOI]

CoRR, September, 2025

InternVL3.5: Advancing Open-Source Multimodal Models in Versatility, Reasoning, and Efficiency.

[BibT_eX]

[DOI]

CoRR, August, 2025

From Diagnosis to Improvement: Probing Spatio-Physical Reasoning in Vision Language Models.

[BibT_eX]

[DOI]

CoRR, August, 2025

MDK12-Bench: A Comprehensive Evaluation of Multimodal Large Language Models on Multidisciplinary Exams.

[BibT_eX]

[DOI]

CoRR, August, 2025

Cardiac-CLIP: A Vision-Language Foundation Model for 3D Cardiac CT Images.

[BibT_eX]

[DOI]

CoRR, July, 2025

Cross-Subject Mind Decoding from Inaccurate Representations.

[BibT_eX]

[DOI]

CoRR, July, 2025

SafeWork-R1: Coevolving Safety and Intelligence under the AI-45° Law.

[BibT_eX]

[DOI]

CoRR, July, 2025

Learning Dense Feature Matching via Lifting Single 2D Image to 3D Space.

[BibT_eX]

[DOI]

CoRR, July, 2025

TinyLVLM-eHub: Towards Comprehensive and Efficient Evaluation for Large Vision-Language Models.

[BibT_eX]

[DOI]

IEEE Trans. Big Data, June, 2025

InternSpatial: A Comprehensive Dataset for Spatial Reasoning in Vision-Language Models.

[BibT_eX]

[DOI]

CoRR, June, 2025

UniFork: Exploring Modality Alignment for Unified Multimodal Understanding and Generation.

[BibT_eX]

[DOI]

CoRR, June, 2025

OWMM-Agent: Open World Mobile Manipulation With Multi-modal Agentic Data Synthesis.

[BibT_eX]

[DOI]

CoRR, June, 2025

Truly Assessing Fluid Intelligence of Large Language Models through Dynamic Reasoning Evaluation.

[BibT_eX]

[DOI]

CoRR, June, 2025

MM-PRM: Enhancing Multimodal Mathematical Reasoning with Scalable Step-Level Supervision.

[BibT_eX]

[DOI]

CoRR, May, 2025

CPGD: Toward Stable Rule-based Reinforcement Learning for Language Models.

[BibT_eX]

[DOI]

CoRR, May, 2025

InternVL3: Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Models.

[BibT_eX]

[DOI]

CoRR, April, 2025

MDK12-Bench: A Multi-Discipline Benchmark for Evaluating Reasoning in Multimodal Large Language Models.

[BibT_eX]

[DOI]

CoRR, April, 2025

GMAI-VL-R1: Harnessing Reinforcement Learning for Multimodal Medical Reasoning.

[BibT_eX]

[DOI]

CoRR, April, 2025

LVLM-EHub: A Comprehensive Evaluation Benchmark for Large Vision-Language Models.

[BibT_eX]

[DOI]

IEEE Trans. Pattern Anal. Mach. Intell., March, 2025

PEBench: A Fictitious Dataset to Benchmark Machine Unlearning for Multimodal Large Language Models.

[BibT_eX]

[DOI]

CoRR, March, 2025

MPBench: A Comprehensive Multimodal Reasoning Benchmark for Process Errors Identification.

[BibT_eX]

[DOI]

CoRR, March, 2025

Car-1000: A New Large Scale Fine-Grained Visual Categorization Dataset.

[BibT_eX]

[DOI]

CoRR, March, 2025

FCaS: Fine-grained Cardiac Image Synthesis based on 3D Template Conditional Diffusion Model.

[BibT_eX]

[DOI]

CoRR, March, 2025

MM-Eureka: Exploring Visual Aha Moment with Rule-based Large-scale Reinforcement Learning.

[BibT_eX]

[DOI]

CoRR, March, 2025

Temporal Overlapping Prediction: A Self-supervised Pre-training Method for LiDAR Moving Object Segmentation.

[BibT_eX]

[DOI]

CoRR, March, 2025

Enhance-A-Video: Better Generated Video for Free.

[BibT_eX]

[DOI]

CoRR, February, 2025

LiT: Delving into a Simplified Linear Diffusion Transformer for Image Generation.

[BibT_eX]

[DOI]

CoRR, January, 2025

B-AVIBench: Toward Evaluating the Robustness of Large Vision-Language Model on Black-Box Adversarial Visual-Instructions.

[BibT_eX]

[DOI]

IEEE Trans. Inf. Forensics Secur., 2025

TP-Eval: Tap Multimodal LLMs' Potential in Evaluation by Customizing Prompts.

[BibT_eX]

[DOI]

Proceedings of the Thirty-Fourth International Joint Conference on Artificial Intelligence, 2025

Towards World Simulator: Crafting Physical Commonsense-Based Benchmark for Video Generation.

[BibT_eX]

[DOI]

Proceedings of the Forty-second International Conference on Machine Learning, 2025

Dynamic Multimodal Evaluation with Flexible Complexity by Vision-Language Bootstrapping.

[BibT_eX]

[DOI]

Proceedings of the Thirteenth International Conference on Learning Representations, 2025

MMIU: Multimodal Multi-image Understanding for Evaluating Large Vision-Language Models.

[BibT_eX]

[DOI]

Proceedings of the Thirteenth International Conference on Learning Representations, 2025

SAMRefiner: Taming Segment Anything Model for Universal Mask Refinement.

[BibT_eX]

[DOI]

Proceedings of the Thirteenth International Conference on Learning Representations, 2025

Lumina-T2X: Scalable Flow-based Large Diffusion Transformer for Flexible Resolution Generation.

[BibT_eX]

[DOI]

Proceedings of the Thirteenth International Conference on Learning Representations, 2025

EMOS: Embodiment-aware Heterogeneous Multi-robot Operating System with LLM Agents.

[BibT_eX]

[DOI]

Proceedings of the Thirteenth International Conference on Learning Representations, 2025

OpenING: A Comprehensive Benchmark for Judging Open-ended Interleaved Image-Text Generation.

[BibT_eX]

[DOI]

Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2025

Forensics-Bench: A Comprehensive Forgery Detection Benchmark Suite for Large Vision Language Models.

[BibT_eX]

[DOI]

Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2025

DexHandDiff: Interaction-aware Diffusion Planning for Adaptive Dexterous Manipulation.

[BibT_eX]

[DOI]

Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2025

Distilling Monocular Foundation Model for Fine-grained Depth Completion.

[BibT_eX]

[DOI]

Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2025

JiSAM: Alleviate Labeling Burden and Corner Case Problems in Autonomous Driving via Minimal Real-World Data.

[BibT_eX]

[DOI]

Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2025

MPBench: A Comprehensive Multimodal Reasoning Benchmark for Process Errors Identification.

[BibT_eX]

[DOI]

Proceedings of the Findings of the Association for Computational Linguistics, 2025

Text2World: Benchmarking Large Language Models for Symbolic World Model Generation.

[BibT_eX]

[DOI]

Proceedings of the Findings of the Association for Computational Linguistics, 2025

HiAgent: Hierarchical Working Memory Management for Solving Long-Horizon Agent Tasks with Large Language Model.

[BibT_eX]

[DOI]

Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), 2025

EfficientQAT: Efficient Quantization-Aware Training for Large Language Models.

[BibT_eX]

[DOI]

Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), 2025

2024

Open-Vocabulary Animal Keypoint Detection with Semantic-Feature Matching.

[BibT_eX]

[DOI]

Int. J. Comput. Vis., December, 2024

Prompt-A-Video: Prompt Your Video Diffusion Model via Preference-Aligned LLM.

[BibT_eX]

[DOI]

CoRR, 2024

Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling.

[BibT_eX]

[DOI]

CoRR, 2024

CLAP: Unsupervised 3D Representation Learning for Fusion 3D Perception via Curvature Sampling and Prototype Learning.

[BibT_eX]

[DOI]

CoRR, 2024

TREND: Unsupervised 3D Representation Learning via Temporal Forecasting for LiDAR Perception.

[BibT_eX]

[DOI]

CoRR, 2024

DexDiffuser: Interaction-aware Diffusion Planning for Adaptive Dexterous Manipulation.

[BibT_eX]

[DOI]

CoRR, 2024

GATE OpenING: A Comprehensive Benchmark for Judging Open-ended Interleaved Image-Text Generation.

[BibT_eX]

[DOI]

CoRR, 2024

EMOS: Embodiment-aware Heterogeneous Multi-robot Operating System with LLM Agents.

[BibT_eX]

[DOI]

CoRR, 2024

Dynamic Multimodal Evaluation with Flexible Complexity by Vision-Language Bootstrapping.

[BibT_eX]

[DOI]

CoRR, 2024

ZipVL: Efficient Large Vision-Language Models with Dynamic Token Sparsification and KV Cache Compression.

[BibT_eX]

[DOI]

CoRR, 2024

DCP: Learning Accelerator Dataflow for Neural Network via Propagation.

[BibT_eX]

[DOI]

CoRR, 2024

Towards World Simulator: Crafting Physical Commonsense-Based Benchmark for Video Generation.

[BibT_eX]

[DOI]

CoRR, 2024

PrefixQuant: Static Quantization Beats Dynamic through Prefixed Outliers in LLMs.

[BibT_eX]

[DOI]

CoRR, 2024

HRVMamba: High-Resolution Visual State Space Model for Dense Prediction.

[BibT_eX]

[DOI]

CoRR, 2024

Task-Oriented Diffusion Inversion for High-Fidelity Text-based Editing.

[BibT_eX]

[DOI]

CoRR, 2024

MMIU: Multimodal Multi-image Understanding for Evaluating Large Vision-Language Models.

[BibT_eX]

[DOI]

CoRR, 2024

Diffree: Text-Guided Shape Free Object Inpainting with Diffusion Model.

[BibT_eX]

[DOI]

CoRR, 2024

EfficientQAT: Efficient Quantization-Aware Training for Large Language Models.

[BibT_eX]

[DOI]

CoRR, 2024

PhyBench: A Physical Commonsense Benchmark for Evaluating Text-to-Image Models.

[BibT_eX]

[DOI]

CoRR, 2024

GUI Odyssey: A Comprehensive Dataset for Cross-App GUI Navigation on Mobile Devices.

[BibT_eX]

[DOI]

CoRR, 2024

UDKAG: Augmenting Large Vision-Language Models with Up-to-Date Knowledge.

[BibT_eX]

[DOI]

CoRR, 2024

Lumina-T2X: Transforming Text into Any Modality, Resolution, and Duration via Flow-based Large Diffusion Transformers.

[BibT_eX]

[DOI]

CoRR, 2024

Adapting LLaMA Decoder to Vision Transformer.

[BibT_eX]

[DOI]

CoRR, 2024

ConvBench: A Multi-Turn Conversation Evaluation Benchmark with Hierarchical Capability for Large Vision-Language Models.

[BibT_eX]

[DOI]

CoRR, 2024

AVIBench: Towards Evaluating the Robustness of Large Vision-Language Model on Adversarial Visual-Instructions.

[BibT_eX]

[DOI]

CoRR, 2024

Towards Implicit Prompt For Text-To-Image Models.

[BibT_eX]

[DOI]

CoRR, 2024

RoboScript: Code Generation for Free-Form Manipulation Tasks across Real and Simulation.

[BibT_eX]

[DOI]

CoRR, 2024

SPHINX-X: Scaling Data and Parameters for a Family of Multi-modal Large Language Models.

[BibT_eX]

[DOI]

CoRR, 2024

Two Trades is not Baffled: Condensing Graph via Crafting Rational Gradient Matching.

[BibT_eX]

[DOI]

CoRR, 2024

ChartAssisstant: A Universal Chart Multimodal Language Model via Chart-to-Table Pre-training and Multitask Instruction Tuning.

[BibT_eX]

[DOI]

CoRR, 2024

Rethinking Human Evaluation Protocol for Text-to-Video Models: Enhancing Reliability, Reproducibility, and Practicality.

[BibT_eX]

[DOI]

Proceedings of the Advances in Neural Information Processing Systems 38: Annual Conference on Neural Information Processing Systems 2024, 2024

Needle In A Multimodal Haystack.

[BibT_eX]

[DOI]

Proceedings of the Advances in Neural Information Processing Systems 38: Annual Conference on Neural Information Processing Systems 2024, 2024

ConvBench: A Multi-Turn Conversation Evaluation Benchmark with Hierarchical Ablation Capability for Large Vision-Language Models.

[BibT_eX]

[DOI]

Proceedings of the Advances in Neural Information Processing Systems 38: Annual Conference on Neural Information Processing Systems 2024, 2024

SearchLVLMs: A Plug-and-Play Framework for Augmenting Large Vision-Language Models by Searching Up-to-Date Internet Knowledge.

[BibT_eX]

[DOI]

Proceedings of the Advances in Neural Information Processing Systems 38: Annual Conference on Neural Information Processing Systems 2024, 2024

MMT-Bench: A Comprehensive Multimodal Benchmark for Evaluating Large Vision-Language Models Towards Multitask AGI.

[BibT_eX]

[DOI]

Proceedings of the Forty-first International Conference on Machine Learning, 2024

Position: Towards Implicit Prompt For Text-To-Image Models.

[BibT_eX]

[DOI]

Proceedings of the Forty-first International Conference on Machine Learning, 2024

SPHINX-X: Scaling Data and Parameters for a Family of Multi-modal Large Language Models.

[BibT_eX]

[DOI]

Proceedings of the Forty-first International Conference on Machine Learning, 2024

RoboCodeX: Multimodal Code Generation for Robotic Behavior Synthesis.

[BibT_eX]

[DOI]

Proceedings of the Forty-first International Conference on Machine Learning, 2024

BESA: Pruning Large Language Models with Blockwise Parameter-Efficient Sparsity Allocation.

[BibT_eX]

[DOI]

Proceedings of the Twelfth International Conference on Learning Representations, 2024

OmniQuant: Omnidirectionally Calibrated Quantization for Large Language Models.

[BibT_eX]

[DOI]

Proceedings of the Twelfth International Conference on Learning Representations, 2024

Tree-Planner: Efficient Close-loop Task Planning with Large Language Models.

[BibT_eX]

[DOI]

Proceedings of the Twelfth International Conference on Learning Representations, 2024

Align, Adapt and Inject: Audio-Guided Image Generation, Editing and Stylization.

[BibT_eX]

[DOI]

Proceedings of the IEEE International Conference on Acoustics, 2024

GPT4RoI: Instruction Tuning Large Language Model on Region-of-Interest.

[BibT_eX]

[DOI]

Proceedings of the Computer Vision - ECCV 2024 Workshops, 2024

SPHINX: A Mixer of Weights, Visual Embeddings and Image Scales for Multi-modal Large Language Models.

[BibT_eX]

[DOI]

Proceedings of the Computer Vision - ECCV 2024, 2024

DiffAgent: Fast and Accurate Text-to-Image API Selection with Large Language Model.

[BibT_eX]

[DOI]

Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024

OmniMedVQA: A New Large-Scale Comprehensive Evaluation Benchmark for Medical LVLM.

[BibT_eX]

[DOI]

Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024

ChartAssistant: A Universal Chart Multimodal Language Model via Chart-to-Table Pre-training and Multitask Instruction Tuning.

[BibT_eX]

[DOI]

Proceedings of the Findings of the Association for Computational Linguistics, 2024

Cached Transformers: Improving Transformers with Differentiable Memory Cachde.

[BibT_eX]

[DOI]

Proceedings of the Thirty-Eighth AAAI Conference on Artificial Intelligence, 2024

2023

Cached Transformers: Improving Transformers with Differentiable Memory Cache.

[BibT_eX]

[DOI]

CoRR, 2023

MLLMs-Augmented Visual-Language Representation Learning.

[BibT_eX]

[DOI]

CoRR, 2023

DiffusionMat: Alpha Matting as Sequential Refinement Learning.

[BibT_eX]

[DOI]

CoRR, 2023

SPHINX: The Joint Mixing of Weights, Tasks, and Visual Embeddings for Multi-modal Large Language Models.

[BibT_eX]

[DOI]

CoRR, 2023

Language-driven Open-Vocabulary Keypoint Detection for Animal Body and Face.

[BibT_eX]

[DOI]

CoRR, 2023

SPOT: Scalable 3D Pre-training via Occupancy Prediction for Autonomous Driving.

[BibT_eX]

[DOI]

CoRR, 2023

ImageBind-LLM: Multi-modality Instruction Tuning.

[BibT_eX]

[DOI]

CoRR, 2023

Tiny LVLM-eHub: Early Multimodal Experiments with Bard.

[BibT_eX]

[DOI]

CoRR, 2023

GPT4RoI: Instruction Tuning Large Language Model on Region-of-Interest.

[BibT_eX]

[DOI]

CoRR, 2023

Align, Adapt and Inject: Sound-guided Unified Image Generation.

[BibT_eX]

[DOI]

CoRR, 2023

Foundation Model is Efficient Multimodal Multitask Model Selector.

[BibT_eX]

[DOI]

Proceedings of the Advances in Neural Information Processing Systems 36: Annual Conference on Neural Information Processing Systems 2023, 2023

CO3: Cooperative Unsupervised 3D Representation Learning for Autonomous Driving.

[BibT_eX]

[DOI]

Proceedings of the Eleventh International Conference on Learning Representations, 2023

Beyond One-to-One: Rethinking the Referring Image Segmentation.

[BibT_eX]

[DOI]

Proceedings of the IEEE/CVF International Conference on Computer Vision, 2023

DiffRate : Differentiable Compression Rate for Efficient Vision Transformers.

[BibT_eX]

[DOI]

Proceedings of the IEEE/CVF International Conference on Computer Vision, 2023

Real-Time Controllable Denoising for Image and Video.

[BibT_eX]

[DOI]

Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2023

2022

CO^3: Cooperative Unsupervised 3D Representation Learning for Autonomous Driving.

[BibT_eX]

[DOI]

CoRR, 2022

Dynamic Token Normalization improves Vision Transformers.

[BibT_eX]

[DOI]

Proceedings of the Tenth International Conference on Learning Representations, 2022

Not All Models Are Equal: Predicting Model Transferability in a Self-challenging Fisher Space.

[BibT_eX]

[DOI]

Proceedings of the Computer Vision - ECCV 2022, 2022

2021

Dynamic Token Normalization Improves Vision Transformer.

[BibT_eX]

[DOI]

CoRR, 2021

BWCP: Probabilistic Learning-to-Prune Channels for ConvNets via Batch Whitening.

[BibT_eX]

[DOI]

CoRR, 2021

Rethinking the Pruning Criteria for Convolutional Neural Network.

[BibT_eX]

[DOI]

Proceedings of the Advances in Neural Information Processing Systems 34: Annual Conference on Neural Information Processing Systems 2021, 2021

Differentiable Dynamic Quantization with Mixed Precision and Adaptive Resolution.

[BibT_eX]

[DOI]

Proceedings of the 38th International Conference on Machine Learning, 2021

What Makes for End-to-End Object Detection?

[BibT_eX]

[DOI]

Proceedings of the 38th International Conference on Machine Learning, 2021

2020

SSN: Learning Sparse Switchable Normalization via SparsestMax.

[BibT_eX]

[DOI]

Int. J. Comput. Vis., 2020

Channel Equilibrium Networks for Learning Deep Representation.

[BibT_eX]

[DOI]

Proceedings of the 37th International Conference on Machine Learning, 2020

2019

Learning Efficient Detector with Semi-supervised Adaptive Distillation.

[BibT_eX]

[DOI]

CoRR, 2019

Differentiable Dynamic Normalization for Learning Deep Representation.

[BibT_eX]

[DOI]

Proceedings of the 36th International Conference on Machine Learning, 2019

Towards Understanding Regularization in Batch Normalization.

[BibT_eX]

[DOI]

Proceedings of the 7th International Conference on Learning Representations, 2019

Differentiable Learning-to-Group Channels via Groupable Convolutional Neural Networks.

[BibT_eX]

[DOI]

Proceedings of the 2019 IEEE/CVF International Conference on Computer Vision, 2019

SSN: Learning Sparse Switchable Normalization via SparsestMax.

[BibT_eX]

[DOI]

Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2019

Learning Efficient Detector with Semi-supervised Adaptive Distillation.

[BibT_eX]

[DOI]

Proceedings of the 30th British Machine Vision Conference 2019, 2019

Wenqi Shao

Timeline

Legend:

Links

On csauthors.net:

Bibliography

Loading...