Shentong Mo

CoRR, April, 2026

LVRPO: Language-Visual Alignment with GRPO for Multimodal Understanding and Generation.

[BibT_eX]

[DOI]

Sukmin Yun

CoRR, March, 2026

SaDiT: Efficient Protein Backbone Design via Latent Structural Tokenization and Diffusion Transformers.

[BibT_eX]

[DOI]

Lanqing Li

CoRR, February, 2026

GMS-CAVP: Improving Audio-Video Correspondence with Multi-Scale Contrastive and Generative Pretraining.

[BibT_eX]

[DOI]

Zehua Chen

Jun Zhu

CoRR, January, 2026

Modality-Inconsistent Continual Learning of Multimodal Large Language Models.

[BibT_eX]

[DOI]

Trans. Mach. Learn. Res., 2026

2025

Scaling Up Audio-Synchronized Visual Animation: An Efficient Training Paradigm.

[BibT_eX]

[DOI]

CoRR, August, 2025

GMAIL: Generative Modality Alignment for generated Image Learning.

[BibT_eX]

[DOI]

Sukmin Yun

Proceedings of the Forty-second International Conference on Machine Learning, 2025

pMoE: Prompting Diverse Experts Together Wins More in Visual Adaptation.

[BibT_eX]

[DOI]

Xufang Luo

Dongsheng Li

Proceedings of the Thirteenth International Conference on Learning Representations, 2025

DiffGAP: A Lightweight Diffusion Module in Contrastive Space for Bridging Cross-Model Gap.

[BibT_eX]

[DOI]

Proceedings of the 2025 IEEE International Conference on Acoustics, 2025

Foley-Flow: Coordinated Video-to-Audio Generation with Masked Audio-Visual Alignment and Dynamic Conditional Flows.

[BibT_eX]

[DOI]

Yibing Song

Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2025

The Dynamic Duo of Collaborative Masking and Target for Advanced Masked Autoencoder Learning.

[BibT_eX]

[DOI]

Proceedings of the Thirty-Ninth AAAI Conference on Artificial Intelligence, 2025

Scaling Diffusion Mamba with Bidirectional SSMs for Efficient 3D Shape Generation.

[BibT_eX]

[DOI]

Proceedings of the Thirty-Ninth AAAI Conference on Artificial Intelligence, 2025

2024

Context Autoencoder for Self-supervised Representation Learning.

[BibT_eX]

[DOI]

Int. J. Comput. Vis., January, 2024

BSTG-Trans: A Bayesian Spatial-Temporal Graph Transformer for Long-Term Pose Forecasting.

[BibT_eX]

[DOI]

IEEE Trans. Multim., 2024

Modality-Inconsistent Continual Learning of Multimodal Large Language Models.

[BibT_eX]

[DOI]

CoRR, 2024

Connecting Joint-Embedding Predictive Architecture with Contrastive Self-supervised Learning.

[BibT_eX]

[DOI]

Shengbang Tong

CoRR, 2024

Rethinking Positive Pairs in Contrastive Learning.

[BibT_eX]

[DOI]

CoRR, 2024

Multi-scale Multi-instance Visual Sound Localization and Segmentation.

[BibT_eX]

[DOI]

Haofan Wang

CoRR, 2024

MultiMed: Massively Multimodal and Multitask Medical Understanding.

[BibT_eX]

[DOI]

Paul Pu Liang

CoRR, 2024

IoT-LM: Large Multisensory Language Models for the Internet of Things.

[BibT_eX]

[DOI]

Russ Salakhutdinov

Paul Pu Liang

CoRR, 2024

Semantic Grouping Network for Audio Source Separation.

[BibT_eX]

[DOI]

CoRR, 2024

Efficient 3D Shape Generation via Diffusion Mamba with Bidirectional SSMs.

[BibT_eX]

[DOI]

CoRR, 2024

DMT-JEPA: Discriminative Masked Targets for Joint-Embedding Predictive Architecture.

[BibT_eX]

[DOI]

Sukmin Yun

CoRR, 2024

Scaling Diffusion Mamba with Bidirectional SSMs for Efficient Image and Video Generation.

[BibT_eX]

[DOI]

CoRR, 2024

Unified Video-Language Pre-training with Synchronized Audio.

[BibT_eX]

[DOI]

CoRR, 2024

A Large-scale Medical Visual Task Adaptation Benchmark.

[BibT_eX]

[DOI]

CoRR, 2024

Text-to-Audio Generation Synchronized with Videos.

[BibT_eX]

[DOI]

Jing Shi

CoRR, 2024

LSPT: Long-term Spatial Prompt Tuning for Visual Representation Learning.

[BibT_eX]

[DOI]

CoRR, 2024

We Choose to Go to Space: Agent-driven Human and Multi-Robot Collaboration in Microgravity.

[BibT_eX]

[DOI]

CoRR, 2024

AttentionPert: accurately modeling multiplexed genetic perturbations with multi-scale effects.

[BibT_eX]

[DOI]

Bioinform., 2024

Continual Audio-Visual Sound Separation.

[BibT_eX]

[DOI]

Proceedings of the Advances in Neural Information Processing Systems 37: Annual Conference on Neural Information Processing Systems 2024, 2024

Connecting Joint-Embedding Predictive Architecture with Contrastive Self-supervised Learning.

[BibT_eX]

[DOI]

Peter Tong

Proceedings of the Advances in Neural Information Processing Systems 37: Annual Conference on Neural Information Processing Systems 2024, 2024

Aligning Audio-Visual Joint Representations with an Agentic Workflow.

[BibT_eX]

[DOI]

Yibing Song

Proceedings of the Advances in Neural Information Processing Systems 37: Annual Conference on Neural Information Processing Systems 2024, 2024

Masked Momentum Contrastive Learning for Semantic Understanding by Observation.

[BibT_eX]

[DOI]

Proceedings of the IEEE International Conference on Image Processing, 2024

Tree of Uncertain Thoughts Reasoning for Large Language Models.

[BibT_eX]

[DOI]

Proceedings of the IEEE International Conference on Acoustics, 2024

Audio-Synchronized Visual Animation.

[BibT_eX]

[DOI]

Proceedings of the Computer Vision - ECCV 2024, 2024

DailyMAE: Towards Pretraining Masked Autoencoders in One Day.

[BibT_eX]

[DOI]

Proceedings of the Computer Vision - ECCV 2024 Workshops, 2024

Fast Training of Diffusion Transformer with Extreme Masking for 3D Point Clouds Generation.

[BibT_eX]

[DOI]

Proceedings of the Computer Vision - ECCV 2024, 2024

Audio-Visual Generalized Zero-Shot Learning the Easy Way.

[BibT_eX]

[DOI]

Proceedings of the Computer Vision - ECCV 2024, 2024

Unveiling the Power of Audio-Visual Early Fusion Transformers with Dense Interactions Through Masked Modeling.

[BibT_eX]

[DOI]

Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024

MA-AVT: Modality Alignment for Parameter-Efficient Audio-Visual Transformers.

[BibT_eX]

[DOI]

Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024

2023

High-Modality Multimodal Transformer: Quantifying Modality & Interaction Heterogeneity for High-Modality Representation Learning.

[BibT_eX]

[DOI]

Russ Salakhutdinov

Trans. Mach. Learn. Res., 2023

Beyond Accuracy: Statistical Measures and Benchmark for Evaluation of Representation from Self-Supervised Learning.

[BibT_eX]

[DOI]

CoRR, 2023

MultiIoT: Towards Large-scale Multisensory Learning for the Internet of Things.

[BibT_eX]

[DOI]

Paul Pu Liang

Russ Salakhutdinov

CoRR, 2023

Exploring Data Augmentations on Self-/Semi-/Fully- Supervised Pre-trained Models.

[BibT_eX]

[DOI]

CoRR, 2023

Masked Momentum Contrastive Learning for Zero-shot Semantic Understanding.

[BibT_eX]

[DOI]

CoRR, 2023

DiT-3D: Exploring Plain Diffusion Transformers for 3D Shape Generation.

[BibT_eX]

[DOI]

CoRR, 2023

DiffAVA: Personalized Text-to-Audio Generation with Visual Alignment.

[BibT_eX]

[DOI]

Jing Shi

CoRR, 2023

AV-SAM: Segment Anything Model Meets Audio-Visual Localization and Segmentation.

[BibT_eX]

[DOI]

CoRR, 2023

CAVL: Learning Contrastive and Adaptive Representations of Vision and Language.

[BibT_eX]

[DOI]

Jingfei Xia

Ihor Markevych

CoRR, 2023

Variantional autoencoder with decremental information bottleneck for disentanglement.

[BibT_eX]

[DOI]

CoRR, 2023

Multi-level Contrastive Learning for Self-Supervised Vision Transformers.

[BibT_eX]

[DOI]

Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision, 2023

Representation Disentanglement in Generative Models with Contrastive Learning.

[BibT_eX]

[DOI]

Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision, 2023

DiT-3D: Exploring Plain Diffusion Transformers for 3D Shape Generation.

[BibT_eX]

[DOI]

Proceedings of the Advances in Neural Information Processing Systems 36: Annual Conference on Neural Information Processing Systems 2023, 2023

Weakly-Supervised Audio-Visual Segmentation.

[BibT_eX]

[DOI]

Bhiksha Raj

Proceedings of the Advances in Neural Information Processing Systems 36: Annual Conference on Neural Information Processing Systems 2023, 2023

DiffComplete: Diffusion-based Generative 3D Shape Completion.

[BibT_eX]

[DOI]

Proceedings of the Advances in Neural Information Processing Systems 36: Annual Conference on Neural Information Processing Systems 2023, 2023

A Unified Audio-Visual Learning Framework for Localization, Separation, and Recognition.

[BibT_eX]

[DOI]

Proceedings of the International Conference on Machine Learning, 2023

Audio-Visual Class-Incremental Learning.

[BibT_eX]

[DOI]

Proceedings of the IEEE/CVF International Conference on Computer Vision, 2023

Class-Incremental Grouping Network for Continual Audio-Visual Learning.

[BibT_eX]

[DOI]

Weiguo Pian

Proceedings of the IEEE/CVF International Conference on Computer Vision, 2023

Audio-Visual Grouping Network for Sound Localization from Mixtures.

[BibT_eX]

[DOI]

Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2023

Variational Autoencoders with Decremental Information Bottleneck for Disentanglement.

[BibT_eX]

[DOI]

Proceedings of the 34th British Machine Vision Conference 2023, 2023

2022

Object-wise Masked Autoencoders for Fast Pre-training.

[BibT_eX]

[DOI]

Jiantao Wu

CoRR, 2022

Multi-Scale Self-Contrastive Learning with Hard Negative Mining for Weakly-Supervised Query-based Video Grounding.

[BibT_eX]

[DOI]

Daizong Liu

Wei Hu

CoRR, 2022

HighMMT: Towards Modality and Task Generalization for High-Modality Representation Learning.

[BibT_eX]

[DOI]

Ruslan Salakhutdinov

CoRR, 2022

Multi-modal Grouping Network for Weakly-Supervised Audio-Visual Video Parsing.

[BibT_eX]

[DOI]

Proceedings of the Advances in Neural Information Processing Systems 35: Annual Conference on Neural Information Processing Systems 2022, 2022

A Closer Look at Weakly-Supervised Audio-Visual Source Localization.

[BibT_eX]

[DOI]

Proceedings of the Advances in Neural Information Processing Systems 35: Annual Conference on Neural Information Processing Systems 2022, 2022

Localizing Visual Sounds the Easy Way.

[BibT_eX]

[DOI]

Proceedings of the Computer Vision - ECCV 2022, 2022

Unitail: Detecting, Reading, and Matching in Retail Scene.

[BibT_eX]

[DOI]

Proceedings of the Computer Vision - ECCV 2022, 2022

Rethinking Prototypical Contrastive Learning through Alignment, Uniformity and Correlation.

[BibT_eX]

[DOI]

Proceedings of the 33rd British Machine Vision Conference 2022, 2022

2021

Multi-modal Self-supervised Pre-training for Regulatory Genome Across Cell Types.

[BibT_eX]

[DOI]

CoRR, 2021

Learning by Examples Based on Multi-level Optimization.

[BibT_eX]

[DOI]

Pengtao Xie

CoRR, 2021

An Empirical Study of Uncertainty Gap for Disentangling Factors.

[BibT_eX]

[DOI]

Jiantao Wu

Lin Wang

Proceedings of the Trustworthy AI'21: Proceedings of the 1st International Workshop on Trustworthy AI for Multimedia Computing, 2021

OsGG-Net: One-step Graph Generation Network for Unbiased Head Pose Estimation.

[BibT_eX]

[DOI]

Xin Miao

Proceedings of the MM '21: ACM Multimedia Conference, Virtual Event, China, October 20, 2021

EVA-GCN: Head Pose Estimation Based on Graph Convolutional Networks.

[BibT_eX]

[DOI]

Yuanze Lin

Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops, 2021

Long-Term Head Pose Forecasting Conditioned on the Gaze-Guiding Prior.

[BibT_eX]

[DOI]

Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops, 2021

Point3D: tracking actions as moving points with 3D CNNs.

[BibT_eX]

[DOI]

Proceedings of the 32nd British Machine Vision Conference 2021, 2021

Siamese Prototypical Contrastive Learning.

[BibT_eX]

[DOI]

Proceedings of the 32nd British Machine Vision Conference 2021, 2021

2020

Towards Improving Spatiotemporal Action Recognition in Videos.

[BibT_eX]

[DOI]

CoRR, 2020

Automatic Speech Verification Spoofing Detection.

[BibT_eX]

[DOI]

CoRR, 2020

2018

SERS spectrum of RHB solution measured on different patterns.

[BibT_eX]

[DOI]

Qiang Zou