Zexu Pan

Orcid: 0000-0002-8106-1176

According to our database¹, Zexu Pan authored at least 48 papers between 2020 and 2025.

Collaborative distances:

Dijkstra number² of four.
Erdős number³ of four.

Timeline

Legend:

Book

In proceedings

Article

PhD thesis

Dataset

Other

Links

On csauthors.net:

Bibliography

2025

FunAudio-ASR Technical Report.

[BibT_eX]

[DOI]

CoRR, September, 2025

MeMo: Attentional Momentum for Real-time Audio-visual Speaker Extraction under Impaired Visual Conditions.

[BibT_eX]

[DOI]

CoRR, July, 2025

Causal Self-supervised Pretrained Frontend with Predictive Code for Speech Separation.

[BibT_eX]

[DOI]

CoRR, April, 2025

Context-Aware Two-Step Training Scheme for Domain Invariant Speech Separation.

[BibT_eX]

[DOI]

CoRR, March, 2025

InspireMusic: Integrating Super Resolution and Large Language Model for High-Fidelity Long-Form Music Generation.

[BibT_eX]

[DOI]

CoRR, March, 2025

ClearerVoice-Studio: Bridging Advanced Speech Processing Research and Practical Deployment.

[BibT_eX]

[DOI]

Shengkui Zhao

Zexu Pan

Bin Ma

Proceedings of the 26th Annual Conference of the International Speech Communication Association, 2025

Plug-and-Play Co-Occurring Face Attention for Robust Audio-Visual Speaker Extraction.

[BibT_eX]

[DOI]

Proceedings of the 26th Annual Conference of the International Speech Communication Association, 2025

Online Audio-Visual Autoregressive Speaker Extraction.

[BibT_eX]

[DOI]

Proceedings of the 26th Annual Conference of the International Speech Communication Association, 2025

M3ANet: Multi-scale and Multi-Modal Alignment Network for Brain-Assisted Target Speaker Extraction.

[BibT_eX]

[DOI]

Proceedings of the Thirty-Fourth International Joint Conference on Artificial Intelligence, 2025

Conditional Latent Diffusion-Based Speech Enhancement via Dual Context Learning.

[BibT_eX]

[DOI]

Proceedings of the 2025 IEEE International Conference on Acoustics, 2025

HiFi-SR: A Unified Generative Transformer-Convolutional Adversarial Network for High-Fidelity Speech Super-Resolution.

[BibT_eX]

[DOI]

Proceedings of the 2025 IEEE International Conference on Acoustics, 2025

SSM2Mel: State Space Model to Reconstruct Mel Spectrogram from the EEG.

[BibT_eX]

[DOI]

Proceedings of the 2025 IEEE International Conference on Acoustics, 2025

Improved Feature Extraction Network for Neuro-Oriented Target Speaker Extraction.

[BibT_eX]

[DOI]

Proceedings of the 2025 IEEE International Conference on Acoustics, 2025

Speech Separation for Low-Resource Languages.

[BibT_eX]

[DOI]

Proceedings of the 2025 IEEE International Conference on Acoustics, 2025

2024

Hierarchical Edge Refinement Network for Guided Depth Map Super-Resolution.

[BibT_eX]

[DOI]

IEEE Trans. Computational Imaging, 2024

Speech Separation With Pretrained Frontend to Minimize Domain Mismatch.

[BibT_eX]

[DOI]

IEEE ACM Trans. Audio Speech Lang. Process., 2024

NeuroHeed: Neuro-Steered Speaker Extraction Using EEG Signals.

[BibT_eX]

[DOI]

IEEE ACM Trans. Audio Speech Lang. Process., 2024

pTSE-T: Presentation Target Speaker Extraction using Unaligned Text Cues.

[BibT_eX]

[DOI]

CoRR, 2024

Emotional Dimension Control in Language Model-Based Text-to-Speech: Spanning a Broad Spectrum of Human Emotions.

[BibT_eX]

[DOI]

CoRR, 2024

TF-Locoformer: Transformer with Local Modeling by Convolution for Speech Separation and Enhancement.

[BibT_eX]

[DOI]

Proceedings of the 18th International Workshop on Acoustic Signal Enhancement, 2024

Ensemble Deep Learning Models for EEG-Based Auditory Attention Decoding.

[BibT_eX]

[DOI]

Proceedings of the 14th IEEE International Symposium on Chinese Spoken Language Processing, 2024

Enhanced Reverberation as Supervision for Unsupervised Speech Separation.

[BibT_eX]

[DOI]

Proceedings of the 25th Annual Conference of the International Speech Communication Association, 2024

PARIS: Pseudo-AutoRegressIve Siamese Training for Online Speech Separation.

[BibT_eX]

[DOI]

Proceedings of the 25th Annual Conference of the International Speech Communication Association, 2024

wTIMIT2mix: A Cocktail Party Mixtures Database to Study Target Speaker Extraction for Normal and Whispered Speech.

[BibT_eX]

[DOI]

Proceedings of the 25th Annual Conference of the International Speech Communication Association, 2024

GLMB 3D Speaker Tracking with Video-Assisted Multi-Channel Audio Optimization Functions.

[BibT_eX]

[DOI]

Proceedings of the IEEE International Conference on Acoustics, 2024

Late Audio-Visual Fusion for in-the-Wild Speaker Diarization.

[BibT_eX]

[DOI]

Zexu Pan

Gordon Wichern

François G. Germain

Aswin Shanmugam Subramanian

Jonathan Le Roux

Proceedings of the IEEE International Conference on Acoustics, 2024

NeuroHeed+: Improving Neuro-Steered Speaker Extraction with Joint Auditory Attention Detection.

[BibT_eX]

[DOI]

Proceedings of the IEEE International Conference on Acoustics, 2024

NIIRF: Neural IIR Filter Field for HRTF Upsampling and Personalization.

[BibT_eX]

[DOI]

Proceedings of the IEEE International Conference on Acoustics, 2024

Audio-Visual Active Speaker Extraction for Sparsely Overlapped Multi-Talker Speech.

[BibT_eX]

[DOI]

Proceedings of the IEEE International Conference on Acoustics, 2024

LOCSELECT: Target Speaker Localization with an Auditory Selective Hearing Mechanism.

[BibT_eX]

[DOI]

Proceedings of the IEEE International Conference on Acoustics, 2024

Generation or Replication: Auscultating Audio Latent Diffusion Models.

[BibT_eX]

[DOI]

Proceedings of the IEEE International Conference on Acoustics, 2024

Restoring Speaking Lips from Occlusion for Audio-Visual Speech Recognition.

[BibT_eX]

[DOI]

Proceedings of the Thirty-Eighth AAAI Conference on Artificial Intelligence, 2024

2023

Time-Domain Speech Separation Networks With Graph Encoding Auxiliary.

[BibT_eX]

[DOI]

IEEE Signal Process. Lett., 2023

Speaker Extraction with Detection of Presence and Absence of Target Speakers.

[BibT_eX]

[DOI]

Proceedings of the 24th Annual Conference of the International Speech Communication Association, 2023

Rethinking the Visual Cues in Audio-Visual Speaker Extraction.

[BibT_eX]

[DOI]

Proceedings of the 24th Annual Conference of the International Speech Communication Association, 2023

Target Active Speaker Detection with Audio-visual Cues.

[BibT_eX]

[DOI]

Proceedings of the 24th Annual Conference of the International Speech Communication Association, 2023

ImagineNet: Target Speaker Extraction with Intermittent Visual Cue Through Embedding Inpainting.

[BibT_eX]

[DOI]

Proceedings of the IEEE International Conference on Acoustics, 2023

Scenario-Aware Audio-Visual TF-Gridnet for Target Speech Extraction.

[BibT_eX]

[DOI]

Proceedings of the IEEE Automatic Speech Recognition and Understanding Workshop, 2023

2022

Selective Listening by Synchronizing Speech With Lips.

[BibT_eX]

[DOI]

IEEE ACM Trans. Audio Speech Lang. Process., 2022

USEV: Universal Speaker Extraction With Visual Cue.

[BibT_eX]

[DOI]

Zexu Pan

Meng Ge

Haizhou Li

IEEE ACM Trans. Audio Speech Lang. Process., 2022

Speaker Extraction With Co-Speech Gestures Cue.

[BibT_eX]

[DOI]

Zexu Pan

Xinyuan Qian

Haizhou Li

IEEE Signal Process. Lett., 2022

Towards End-to-end Speaker Diarization in the Wild.

[BibT_eX]

[DOI]

Zexu Pan

Gordon Wichern

François G. Germain

Aswin Shanmugam Subramanian

Jonathan Le Roux

CoRR, 2022

A Hybrid Continuity Loss to Reduce Over-Suppression for Time-domain Target Speaker Extraction.

[BibT_eX]

[DOI]

Zexu Pan

Meng Ge

Haizhou Li

Proceedings of the 23rd Annual Conference of the International Speech Communication Association, 2022

VCSE: Time-Domain Visual-Contextual Speaker Extraction Network.

[BibT_eX]

[DOI]

Proceedings of the 23rd Annual Conference of the International Speech Communication Association, 2022

2021

Is Someone Speaking?: Exploring Long-term Temporal Features for Audio-visual Active Speaker Detection.

[BibT_eX]

[DOI]

Proceedings of the MM '21: ACM Multimedia Conference, Virtual Event, China, October 20, 2021

Multi-Target DoA Estimation with an Audio-Visual Fusion Mechanism.

[BibT_eX]

[DOI]

Proceedings of the IEEE International Conference on Acoustics, 2021

Muse: Multi-Modal Target Speaker Extraction with Visual Cues.

[BibT_eX]

[DOI]

Proceedings of the IEEE International Conference on Acoustics, 2021

2020

Multi-Modal Attention for Speech Emotion Recognition.

[BibT_eX]

[DOI]

Proceedings of the 21st Annual Conference of the International Speech Communication Association, 2020

Zexu Pan

Timeline

Legend:

Links

On csauthors.net:

Bibliography

Loading...