Hang Chen

Orcid: 0000-0002-0904-8946

Affiliations:

University of Science and Technology of China, National Engineering Research Center of Speech and Language Information Processing, Hefei, China

According to our database¹, Hang Chen authored at least 49 papers between 2019 and 2025.

Collaborative distances:

Dijkstra number² of five.
Erdős number³ of four.

Timeline

Legend:

Book

In proceedings

Article

PhD thesis

Dataset

Other

Bibliography

2025

MEAN-RIR: Multi-Modal Environment-Aware Network for Robust Room Impulse Response Estimation.

[BibT_eX]

[DOI]

CoRR, September, 2025

Cross-Modal Knowledge Distillation with Multi-Level Data Augmentation for Low-Resource Audio-Visual Sound Event Localization and Detection.

[BibT_eX]

[DOI]

Qing Wang

Ya Jiang

Hang Chen

Sabato Marco Siniscalchi

Jun Du

Jianqing Gao

CoRR, August, 2025

Lightweight Audio-Visual Wake Word Spotting With Diverse Acoustic Knowledge Distillation.

[BibT_eX]

[DOI]

Sabato Marco Siniscalchi

Shutong Niu

Shifu Xiong

IEEE Trans. Circuits Syst. Video Technol., July, 2025

Exploring Speaker Diarization with Mixture of Experts.

[BibT_eX]

[DOI]

CoRR, June, 2025

HPCNet: Hybrid Pixel and Contour Network for Audio-Visual Speech Enhancement With Low-Quality Video.

[BibT_eX]

[DOI]

Sabato Marco Siniscalchi

Shifu Xiong

Genshun Wan

IEEE J. Sel. Top. Signal Process., May, 2025

Video Segmentation and Tokenization for Model-Based Video Scene Classification.

[BibT_eX]

[DOI]

IEEE Trans. Multim., 2025

Dual-Branch Codec With Orthogonality Constraint and Knowledge Distillation for Noisy Environment.

[BibT_eX]

[DOI]

IEEE Signal Process. Lett., 2025

Cross-attention among spectrum, waveform and SSL representations with bidirectional knowledge distillation for speech enhancement.

[BibT_eX]

[DOI]

Sabato Marco Siniscalchi

Genshun Wan

Jia Pan

Huijun Ding

Inf. Fusion, 2025

The Multimodal Information Based Speech Processing (MISP) 2025 Challenge: Audio-Visual Diarization and Recognition.

[BibT_eX]

[DOI]

Sabato Marco Siniscalchi

Odette Scharenborg

Proceedings of the 26th Annual Conference of the International Speech Communication Association, 2025

Projection Valued-based Quantum Machine Learning Adapting to Differential Privacy Algorithm for Word-level Lipreading.

[BibT_eX]

[DOI]

Proceedings of the 2025 IEEE International Conference on Acoustics, 2025

2024

Collaborative Viseme Subword and End-to-End Modeling for Word-Level Lip Reading.

[BibT_eX]

[DOI]

IEEE Trans. Multim., 2024

Optimizing Audio-Visual Speech Enhancement Using Multi-Level Distortion Measures for Audio-Visual Speech Recognition.

[BibT_eX]

[DOI]

IEEE ACM Trans. Audio Speech Lang. Process., 2024

Deep CLAS: Deep Contextual Listen, Attend and Spell.

[BibT_eX]

[DOI]

CoRR, 2024

A Study of Dropout-Induced Modality Bias on Robustness to Missing Video Frames for Audio-Visual Speech Recognition.

[BibT_eX]

[DOI]

CoRR, 2024

Summary of Low-Resource Dysarthria Wake-Up Word Spotting Challenge.

[BibT_eX]

[DOI]

Proceedings of the IEEE Spoken Language Technology Workshop, 2024

Layer-Adaptive Low-Rank Adaptation of Large ASR Model for Low-Resource Multilingual Scenarios.

[BibT_eX]

[DOI]

Proceedings of the 14th IEEE International Symposium on Chinese Spoken Language Processing, 2024

Enhancing Voice Wake-Up for Dysarthria: Mandarin Dysarthria Speech Corpus Release and Customized System Design.

[BibT_eX]

[DOI]

Proceedings of the 25th Annual Conference of the International Speech Communication Association, 2024

Summary on the Chat-Scenario Chinese Lipreading (ChatCLR) Challenge.

[BibT_eX]

[DOI]

Chen-Yue Zhang

Hang Chen

Jun Du

Sabato Marco Siniscalchi

Ya Jiang

Chin-Hui Lee

Proceedings of the IEEE International Conference on Multimedia and Expo, 2024

The Multimodal Information Based Speech Processing (MISP) 2023 Challenge: Audio-Visual Target Speaker Extraction.

[BibT_eX]

[DOI]

Sabato Marco Siniscalchi

Proceedings of the IEEE International Conference on Acoustics, 2024

Implicit Enhancement of Target Speaker in Speaker-Adaptive ASR through Efficient Joint Optimization.

[BibT_eX]

[DOI]

Proceedings of the IEEE International Conference on Acoustics, 2024

The USTC System for Cadenza 2024 Challenge.

[BibT_eX]

[DOI]

Proceedings of the IEEE International Conference on Acoustics, 2024

Summary on the Multimodal Information-Based Speech Processing (MISP) 2023 Challenge.

[BibT_eX]

[DOI]

Sabato Marco Siniscalchi

Proceedings of the IEEE International Conference on Acoustics, 2024

A Study of Dropout-Induced Modality Bias on Robustness to Missing Video Frames for Audio-Visual Speech Recognition.

[BibT_eX]

[DOI]

Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024

2023

Space-and-speaker-aware acoustic modeling with effective data augmentation for recognition of multi-array conversational speech.

[BibT_eX]

[DOI]

Speech Commun., September, 2023

The Multimodal Information Based Speech Processing (MISP) 2023 Challenge: Audio-Visual Target Speaker Extraction.

[BibT_eX]

[DOI]

Sabato Marco Siniscalchi

CoRR, 2023

The USTC-NERCSLIP Systems for the CHiME-7 DASR Challenge.

[BibT_eX]

[DOI]

CoRR, 2023

Hierarchical Audio-Visual Information Fusion with Multi-label Joint Decoding for MER 2023.

[BibT_eX]

[DOI]

Proceedings of the 31st ACM International Conference on Multimedia, 2023

Improving Audio-Visual Speech Recognition by Lip-Subword Correlation Based Visual Pre-training and Cross-Modal Fusion Encoder.

[BibT_eX]

[DOI]

Proceedings of the IEEE International Conference on Multimedia and Expo, 2023

Incorporating Visual Information Reconstruction into Progressive Learning for Optimizing audio-visual Speech Enhancement.

[BibT_eX]

[DOI]

Proceedings of the IEEE International Conference on Acoustics, 2023

The Multimodal Information Based Speech Processing (Misp) 2022 Challenge: Audio-Visual Diarization And Recognition.

[BibT_eX]

[DOI]

Sabato Marco Siniscalchi

Proceedings of the IEEE International Conference on Acoustics, 2023

Incorporating Lip Features into Audio-Visual Multi-Speaker DOA Estimation by Gated Fusion.

[BibT_eX]

[DOI]

Proceedings of the IEEE International Conference on Acoustics, 2023

Summary on the Multimodal Information Based Speech Processing (MISP) 2022 Challenge.

[BibT_eX]

[DOI]

Sabato Marco Siniscalchi

Proceedings of the IEEE International Conference on Acoustics, 2023

Semi-Supervised Multi-Channel Speaker Diarization With Cross-Channel Attention.

[BibT_eX]

[DOI]

Proceedings of the IEEE Automatic Speech Recognition and Understanding Workshop, 2023

Enhancing Privacy Preservation with Quantum Computing for Word-Level Audio-Visual Speech Recognition.

[BibT_eX]

[DOI]

Proceedings of the Asia Pacific Signal and Information Processing Association Annual Summit and Conference, 2023

Progressive Multi-scale Self-supervised Learning for Speech Recognition.

[BibT_eX]

[DOI]

Proceedings of the Asia Pacific Signal and Information Processing Association Annual Summit and Conference, 2023

Improved Data2vec with Soft Supervised Hidden Unit for Mandarin Speech Recognition.

[BibT_eX]

[DOI]

Proceedings of the Asia Pacific Signal and Information Processing Association Annual Summit and Conference, 2023

Correlated Multi-Level Speech Enhancement for Robust Real-World ASR Applications Using Mask-Waveform-Feature Optimization.

[BibT_eX]

[DOI]

Proceedings of the Asia Pacific Signal and Information Processing Association Annual Summit and Conference, 2023

2022

Improved Speech Pre-Training with Supervision-Enhanced Acoustic Unit.

[BibT_eX]

[DOI]

CoRR, 2022

Progressive Multi-Scale Self-Supervised Learning for Speech Recognition.

[BibT_eX]

[DOI]

CoRR, 2022

Deep Learning Based Audio-Visual Multi-Speaker DOA Estimation Using Permutation-Free Loss Function.

[BibT_eX]

[DOI]

Proceedings of the 13th International Symposium on Chinese Spoken Language Processing, 2022

Multi-Task Joint Learning for Embedding Aware Audio-Visual Speech Enhancement.

[BibT_eX]

[DOI]

Proceedings of the 13th International Symposium on Chinese Spoken Language Processing, 2022

Deep Segment Model for Acoustic Scene Classification.

[BibT_eX]

[DOI]

Proceedings of the 23rd Annual Conference of the International Speech Communication Association, 2022

Audio-Visual Speech Recognition in MISP2021 Challenge: Dataset Release and Deep Analysis.

[BibT_eX]

[DOI]

Sabato Marco Siniscalchi

Proceedings of the 23rd Annual Conference of the International Speech Communication Association, 2022

The First Multimodal Information Based Speech Processing (Misp) Challenge: Data, Tasks, Baselines And Results.

[BibT_eX]

[DOI]

Sabato Marco Siniscalchi

Proceedings of the IEEE International Conference on Acoustics, 2022

2021

Correlating subword articulation with lip shapes for embedding aware audio-visual speech enhancement.

[BibT_eX]

[DOI]

Neural Networks, 2021

Audio-Visual Information Fusion Using Cross-Modal Teacher-Student Learning for Voice Activity Detection in Realistic Environments.

[BibT_eX]

[DOI]

Proceedings of the 22nd Annual Conference of the International Speech Communication Association, Interspeech 2021, Brno, Czechia, August 30, 2021

Automatic Lip-Reading with Hierarchical Pyramidal Convolution and Self-Attention for Image Sequences with No Word Boundaries.

[BibT_eX]

[DOI]

Proceedings of the 22nd Annual Conference of the International Speech Communication Association, Interspeech 2021, Brno, Czechia, August 30, 2021

2020

Lip-reading with Hierarchical Pyramidal Convolution and Self-Attention.

[BibT_eX]

[DOI]

CoRR, 2020

2019

Deep Neural Network Based Regression Approach for Acoustic Echo Cancellation.

[BibT_eX]

[DOI]

Proceedings of the 4th International Conference on Multimedia Systems and Signal Processing, 2019

Hang Chen

Timeline

Legend:

Links

Online presence:

On csauthors.net:

Bibliography

Loading...