Wenxuan Huang

Orcid: 0009-0001-9656-813X

Affiliations:

East China Normal University, School of Computer Science and Technology, Shanghai, China

According to our database¹, Wenxuan Huang authored at least 33 papers between 2023 and 2026.

Collaborative distances:

Dijkstra number² of four.
Erdős number³ of four.

Timeline

Legend:

Book In proceedings Article PhD thesis Dataset Other

Bibliography

2026

VideoSeeker: Incentivizing Instance-level Video Understanding via Native Agentic Tool Invocation.

[BibT_eX]

[DOI]

CoRR, May, 2026

Flow-OPD: On-Policy Distillation for Flow Matching Models.

[BibT_eX]

[DOI]

CoRR, May, 2026

SCOPE: Structured Decomposition and Conditional Skill Orchestration for Complex Image Generation.

[BibT_eX]

[DOI]

CoRR, May, 2026

AblateCell: A Reproduce-then-Ablate Agent for Virtual Cell Repositories.

[BibT_eX]

[DOI]

CoRR, April, 2026

SkillFlow:Benchmarking Lifelong Skill Discovery and Evolution for Autonomous Agents.

[BibT_eX]

[DOI]

CoRR, April, 2026

SCALE:Scalable Conditional Atlas-Level Endpoint transport for virtual cell perturbation prediction.

[BibT_eX]

[DOI]

CoRR, March, 2026

HarmonyCell: Automating Single-Cell Perturbation Modeling under Semantic and Distribution Shifts.

[BibT_eX]

[DOI]

CoRR, March, 2026

GroupGPT: A Token-efficient and Privacy-preserving Agentic Framework for Multi-User Chat Assistant.

[BibT_eX]

[DOI]

CoRR, March, 2026

VimRAG: Navigating Massive Visual Context in Retrieval-Augmented Generation via Multimodal Memory Graph.

[BibT_eX]

[DOI]

CoRR, February, 2026

Towards Efficient Large Language Reasoning Models via Extreme-Ratio Chain-of-Thought Compression.

[BibT_eX]

[DOI]

CoRR, February, 2026

CLIP-Map: Structured Matrix Mapping for Parameter-Efficient CLIP Compression.

[BibT_eX]

[DOI]

CoRR, February, 2026

Vision-DeepResearch Benchmark: Rethinking Visual and Textual Search for Multimodal Large Language Models.

[BibT_eX]

[DOI]

CoRR, February, 2026

Vision-DeepResearch: Incentivizing DeepResearch Capability in Multimodal Large Language Models.

[BibT_eX]

[DOI]

CoRR, January, 2026

2025

Actial: Activate Spatial Reasoning Ability of Multimodal Large Language Models.

[BibT_eX]

[DOI]

CoRR, November, 2025

Unifying Tree Search Algorithm and Reward Design for LLM Reasoning: A Survey.

[BibT_eX]

[DOI]

Muhammad Abdul-Mageed

Laks V. S. Lakshmanan

Chenyu You

Wanli Ouyang

Siqi Sun

CoRR, October, 2025

Refusal Falls off a Cliff: How Safety Alignment Fails in Reasoning?

[BibT_eX]

[DOI]

CoRR, October, 2025

MASA: Rethinking the Representational Bottleneck in LoRA with Multi-A Shared Adaptation.

[BibT_eX]

[DOI]

CoRR, October, 2025

Agentic Jigsaw Interaction Learning for Enhancing Visual Perception and Reasoning in Vision-Language Models.

[BibT_eX]

[DOI]

CoRR, October, 2025

Interleaving Reasoning for Better Text-to-Image Generation.

[BibT_eX]

[DOI]

CoRR, September, 2025

AgentGroupChat-V2: Divide-and-Conquer Is What LLM-Based Multi-Agent System Need.

[BibT_eX]

[DOI]

CoRR, June, 2025

Scientists' First Exam: Probing Cognitive Abilities of MLLM via Perception, Understanding, and Reasoning.

[BibT_eX]

[DOI]

CoRR, June, 2025

MT<sup>3</sup>: Scaling MLLM-based Text Image Machine Translation via Multi-Task Reinforcement Learning.

[BibT_eX]

[DOI]

CoRR, May, 2025

CompBench: Benchmarking Complex Instruction-guided Image Editing.

[BibT_eX]

[DOI]

CoRR, May, 2025

ReactDance: Progressive-Granular Representation for Long-Term Coherent Reactive Dance Generation.

[BibT_eX]

[DOI]

CoRR, May, 2025

VCR-Bench: A Comprehensive Evaluation Framework for Video Chain-of-Thought Reasoning.

[BibT_eX]

[DOI]

CoRR, April, 2025

LLaVA-RadZ: Can Multimodal Large Language Models Effectively Tackle Zero-shot Radiology Recognition?

[BibT_eX]

[DOI]

CoRR, March, 2025

Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models.

[BibT_eX]

[DOI]

CoRR, March, 2025

An Intelligent First-Arrival Picking Method of Microseismic Signals Based on the Small Sample Expansion.

[BibT_eX]

[DOI]

IEEE Trans. Geosci. Remote. Sens., 2025

TimeSoccer: An End-to-End Multimodal Large Language Model for Soccer Commentary Generation.

[BibT_eX]

[DOI]

Proceedings of the 33rd ACM International Conference on Multimedia, 2025

Dynamic-LLaVA: Efficient Multimodal Large Language Models via Dynamic Vision-language Context Sparsification.

[BibT_eX]

[DOI]

Proceedings of the Thirteenth International Conference on Learning Representations, 2025

Weakly Supervised Semantic Segmentation via Progressive Confidence Region Expansion.

[BibT_eX]

[DOI]

Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2025

2024

A General and Efficient Training for Transformer via Token Expansion.

[BibT_eX]

[DOI]

Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024

2023

Filter Pruning for Efficient CNNs via Knowledge-driven Differential Filter Sampler.

[BibT_eX]

[DOI]

CoRR, 2023

Wenxuan Huang

Timeline

Legend:

Links

Online presence:

On csauthors.net:

Bibliography

Loading...