Wenxuan Huang

Orcid: 0009-0001-9656-813X

Affiliations:

East China Normal University, School of Computer Science and Technology, Shanghai, China

According to our database¹, Wenxuan Huang authored at least 20 papers between 2023 and 2025.

Collaborative distances:

Dijkstra number² of four.
Erdős number³ of four.

Timeline

Legend:

Book

In proceedings

Article

PhD thesis

Dataset

Other

Bibliography

2025

Actial: Activate Spatial Reasoning Ability of Multimodal Large Language Models.

[BibT_eX]

[DOI]

CoRR, November, 2025

Unifying Tree Search Algorithm and Reward Design for LLM Reasoning: A Survey.

[BibT_eX]

[DOI]

Muhammad Abdul-Mageed

Laks V. S. Lakshmanan

Chenyu You

Wanli Ouyang

Siqi Sun

CoRR, October, 2025

Refusal Falls off a Cliff: How Safety Alignment Fails in Reasoning?

[BibT_eX]

[DOI]

CoRR, October, 2025

MASA: Rethinking the Representational Bottleneck in LoRA with Multi-A Shared Adaptation.

[BibT_eX]

[DOI]

CoRR, October, 2025

Agentic Jigsaw Interaction Learning for Enhancing Visual Perception and Reasoning in Vision-Language Models.

[BibT_eX]

[DOI]

CoRR, October, 2025

Interleaving Reasoning for Better Text-to-Image Generation.

[BibT_eX]

[DOI]

CoRR, September, 2025

AgentGroupChat-V2: Divide-and-Conquer Is What LLM-Based Multi-Agent System Need.

[BibT_eX]

[DOI]

CoRR, June, 2025

Scientists' First Exam: Probing Cognitive Abilities of MLLM via Perception, Understanding, and Reasoning.

[BibT_eX]

[DOI]

CoRR, June, 2025

MT<sup>3</sup>: Scaling MLLM-based Text Image Machine Translation via Multi-Task Reinforcement Learning.

[BibT_eX]

[DOI]

CoRR, May, 2025

CompBench: Benchmarking Complex Instruction-guided Image Editing.

[BibT_eX]

[DOI]

CoRR, May, 2025

ReactDance: Progressive-Granular Representation for Long-Term Coherent Reactive Dance Generation.

[BibT_eX]

[DOI]

CoRR, May, 2025

TimeSoccer: An End-to-End Multimodal Large Language Model for Soccer Commentary Generation.

[BibT_eX]

[DOI]

CoRR, April, 2025

VCR-Bench: A Comprehensive Evaluation Framework for Video Chain-of-Thought Reasoning.

[BibT_eX]

[DOI]

CoRR, April, 2025

LLaVA-RadZ: Can Multimodal Large Language Models Effectively Tackle Zero-shot Radiology Recognition?

[BibT_eX]

[DOI]

CoRR, March, 2025

Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models.

[BibT_eX]

[DOI]

CoRR, March, 2025

An Intelligent First-Arrival Picking Method of Microseismic Signals Based on the Small Sample Expansion.

[BibT_eX]

[DOI]

IEEE Trans. Geosci. Remote. Sens., 2025

Dynamic-LLaVA: Efficient Multimodal Large Language Models via Dynamic Vision-language Context Sparsification.

[BibT_eX]

[DOI]

Proceedings of the Thirteenth International Conference on Learning Representations, 2025

Weakly Supervised Semantic Segmentation via Progressive Confidence Region Expansion.

[BibT_eX]

[DOI]

Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2025

2024

A General and Efficient Training for Transformer via Token Expansion.

[BibT_eX]

[DOI]

Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024

2023

Filter Pruning for Efficient CNNs via Knowledge-driven Differential Filter Sampler.

[BibT_eX]

[DOI]

CoRR, 2023

Wenxuan Huang

Timeline

Legend:

Links

Online presence:

On csauthors.net:

Bibliography

Loading...