Xinxiao Wu

CoRR, March, 2026

A Comprehensive Survey on Video Summarization: Challenges and Advances.

[BibT_eX]

[DOI]

IEEE Trans. Circuits Syst. Video Technol., January, 2026

From Atoms to Chains: Divergence-Guided Reasoning Curriculum for Unlabeled LLM Domain Adaptation.

[BibT_eX]

[DOI]

CoRR, January, 2026

Simulate, Refocus and Ensemble: An Attention-Refocusing Scheme for Domain Generalization.

[BibT_eX]

[DOI]

IEEE Trans. Multim., 2026

How Vision-Language Tasks Benefit From Large Pre-Trained Models: A Survey.

[BibT_eX]

[DOI]

IEEE Trans. Multim., 2026

Image-free multi-label image recognition via LLM-powered hierarchical prompt tuning.

[BibT_eX]

[DOI]

Pattern Recognit., 2026

Domain adaptive video summarization using generalized transformer.

[BibT_eX]

[DOI]

Ziyi Wang

Yubo Zhu

Pattern Recognit., 2026

Advancing zero-shot humorous video understanding with test-time humor knowledge augmentation.

[BibT_eX]

[DOI]

Yayun Qi

Pattern Recognit., 2026

Challenging and enhancing the reasoning capacity of multimodal LLMs in context-violating images.

[BibT_eX]

[DOI]

Pattern Recognit., 2026

TongUI: Internet-Scale Trajectories from Multimodal Web Tutorials for Generalized GUI Agents.

[BibT_eX]

[DOI]

Proceedings of the Fortieth AAAI Conference on Artificial Intelligence, 2026

What to Trust? A Trust-aware Knowledge-guided Method for Zero-shot Object State Understanding in Videos.

[BibT_eX]

[DOI]

Yayun Qi

Proceedings of the Fortieth AAAI Conference on Artificial Intelligence, 2026

2025

Efficient Multi-turn RL for GUI Agents via Decoupled Training and Adaptive Data Curation.

[BibT_eX]

[DOI]

CoRR, September, 2025

End-to-End Open-Vocabulary Video Visual Relationship Detection Using Multi-Modal Prompting.

[BibT_eX]

[DOI]

IEEE Trans. Pattern Anal. Mach. Intell., August, 2025

VUDG: A Dataset for Video Understanding Domain Generalization.

[BibT_eX]

[DOI]

CoRR, May, 2025

LLM-powered Query Expansion for Enhancing Boundary Prediction in Language-driven Action Localization.

[BibT_eX]

[DOI]

Zirui Shang

CoRR, May, 2025

TongUI: Building Generalized GUI Agents by Learning from Multimodal Web Tutorials.

[BibT_eX]

[DOI]

CoRR, April, 2025

METOR: A Unified Framework for Mutual Enhancement of Objects and Relationships in Open-vocabulary Video Visual Relationship Detection.

[BibT_eX]

[DOI]

Yongqi Wang

Proceedings of the Thirty-Fourth International Joint Conference on Artificial Intelligence, 2025

LLM-Enhanced Action-Aware Multi-Modal Prompt Tuning for Image-Text Matching.

[BibT_eX]

[DOI]

Mengxiao Tian

Proceedings of the IEEE/CVF International Conference on Computer Vision, 2025

Video Summarization Using Denoising Diffusion Probabilistic Model.

[BibT_eX]

[DOI]

Proceedings of the Thirty-Ninth AAAI Conference on Artificial Intelligence, 2025

2024

Boosting Entity-Aware Image Captioning With Multi-Modal Knowledge Graph.

[BibT_eX]

[DOI]

IEEE Trans. Multim., 2024

Dynamic Pathway for Query-Aware Feature Learning in Language-Driven Action Localization.

[BibT_eX]

[DOI]

IEEE Trans. Multim., 2024

Commonsense Knowledge Prompting for Few-Shot Action Recognition in Videos.

[BibT_eX]

[DOI]

IEEE Trans. Multim., 2024

Source-Free Image-Text Matching via Uncertainty-Aware Learning.

[BibT_eX]

[DOI]

IEEE Signal Process. Lett., 2024

Hide and track: Towards blind video watermarking network in frequency domain.

[BibT_eX]

[DOI]

Neurocomputing, 2024

Storyboard guided Alignment for Fine-grained Video Action Recognition.

[BibT_eX]

[DOI]

CoRR, 2024

Data-free Multi-label Image Recognition via LLM-powered Prompt Tuning.

[BibT_eX]

[DOI]

CoRR, 2024

DiffCLIP: Leveraging Stable Diffusion for Language Grounded 3D Classification.

[BibT_eX]

[DOI]

Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision, 2024

Efficient Language-Driven Action Localization by Feature Aggregation and Prediction Adjustment.

[BibT_eX]

[DOI]

Zirui Shang

Proceedings of the Pattern Recognition and Computer Vision - 7th Chinese Conference, 2024

Event-based Few-shot Fine-grained Human Action Recognition.

[BibT_eX]

[DOI]

Proceedings of the IEEE/RSJ International Conference on Intelligent Robots and Systems, 2024

Multi-Modal Prompting for Open-Vocabulary Video Visual Relationship Detection.

[BibT_eX]

[DOI]

Proceedings of the Thirty-Eighth AAAI Conference on Artificial Intelligence, 2024

Relational Distant Supervision for Image Captioning without Image-Text Pairs.

[BibT_eX]

[DOI]

Yayun Qi

Proceedings of the Thirty-Eighth AAAI Conference on Artificial Intelligence, 2024

2023

Topic-aware video summarization using multimodal transformer.

[BibT_eX]

[DOI]

Pattern Recognit., August, 2023

Sentimental Visual Captioning using Multimodal Transformer.

[BibT_eX]

[DOI]

Tong Li

Int. J. Comput. Vis., April, 2023

Adaptive Latent Graph Representation Learning for Image-Text Matching.

[BibT_eX]

[DOI]

Mengxiao Tian

IEEE Trans. Image Process., 2023

Probability Distribution Based Frame-supervised Language-driven Action Localization.

[BibT_eX]

[DOI]

Zirui Shang

Proceedings of the 31st ACM International Conference on Multimedia, 2023

Teaching What You Should Teach: A Data-Based Distillation Method.

[BibT_eX]

[DOI]

Proceedings of the Thirty-Second International Joint Conference on Artificial Intelligence, 2023

Counterfactual Inference for Visual Relationship Detection in Videos.

[BibT_eX]

[DOI]

Xiaofeng Ji

Jin Chen

Proceedings of the IEEE International Conference on Multimedia and Expo, 2023

Meta-Causal Learning for Single Domain Generalization.

[BibT_eX]

[DOI]

Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2023

2022

Domain Adversarial Reinforcement Learning for Partial Domain Adaptation.

[BibT_eX]

[DOI]

IEEE Trans. Neural Networks Learn. Syst., 2022

Exploiting Informative Video Segments for Temporal Action Localization.

[BibT_eX]

[DOI]

IEEE Trans. Multim., 2022

Learning Cooperative Neural Modules for Stylized Image Captioning.

[BibT_eX]

[DOI]

Int. J. Comput. Vis., 2022

Learning What You Should Learn.

[BibT_eX]

[DOI]

CoRR, 2022

Knowledge Prompting for Few-shot Action Recognition.

[BibT_eX]

[DOI]

Yuheng Shi

Hanxi Lin

CoRR, 2022

Entity-aware and Motion-aware Transformers for Language-driven Action Localization in Videos.

[BibT_eX]

[DOI]

CoRR, 2022

Entity-aware and Motion-aware Transformers for Language-driven Action Localization.

[BibT_eX]

[DOI]

Proceedings of the Thirty-First International Joint Conference on Artificial Intelligence, 2022

Adaptive Recursive Circle Framework for Fine-Grained Action Recognition.

[BibT_eX]

[DOI]

Hanxi Lin

Proceedings of the IEEE International Conference on Multimedia and Expo, 2022

Bootstrap Generalization Ability from Loss Landscape Perspective.

[BibT_eX]

[DOI]

Proceedings of the Computer Vision - ECCV 2022 Workshops, 2022

Exploring Spatial-Temporal Instance Relationships in an Intermediate Domain for Image-to-Video Object Detection.

[BibT_eX]

[DOI]

Zihan Wen

Jin Chen

Proceedings of the Computer Vision - ACCV 2022 Workshops, 2022

Adaptive Image-to-Video Scene Graph Generation via Knowledge Reasoning and Adversarial Learning.

[BibT_eX]

[DOI]

Jin Chen

Xiaofeng Ji

Proceedings of the Thirty-Sixth AAAI Conference on Artificial Intelligence, 2022

2021

Cross-Domain Image Captioning via Cross-Modal Retrieval and Model Adaptation.

[BibT_eX]

[DOI]

IEEE Trans. Image Process., 2021

Sequential Instance Refinement for Cross-Domain Object Detection in Images.

[BibT_eX]

[DOI]

IEEE Trans. Image Process., 2021

Joint Learning of Multiple Latent Domains and Deep Representations for Domain Adaptation.

[BibT_eX]

[DOI]

IEEE Trans. Cybern., 2021

Boundary discrimination and proposal evaluation for temporal action proposal generation.

[BibT_eX]

[DOI]

Tianyu Li

Bing Bing

Multim. Tools Appl., 2021

Spatial-Temporal Relation Reasoning for Action Prediction in Videos.

[BibT_eX]

[DOI]

Int. J. Comput. Vis., 2021

Boosting Entity-aware Image Captioning with Multi-modal Knowledge Graph.

[BibT_eX]

[DOI]

CoRR, 2021

Adaptive Recursive Circle Framework for Fine-grained Action Recognition.

[BibT_eX]

[DOI]

Hanxi Lin

CoRR, 2021

Multi-modal Dependency Tree for Video Captioning.

[BibT_eX]

[DOI]

Proceedings of the Advances in Neural Information Processing Systems 34: Annual Conference on Neural Information Processing Systems 2021, 2021

Image Captioning with Inherent Sentiment.

[BibT_eX]

[DOI]

Tong Li

Yunhui Hu

Proceedings of the 2021 IEEE International Conference on Multimedia and Expo, 2021

Anticipating Future Relations via Graph Growing for Action Prediction.

[BibT_eX]

[DOI]

Jianwei Zhao

Ruiqi Wang

Proceedings of the Thirty-Fifth AAAI Conference on Artificial Intelligence, 2021

Spatial-temporal Causal Inference for Partial Image-to-video Adaptation.

[BibT_eX]

[DOI]

Proceedings of the Thirty-Fifth AAAI Conference on Artificial Intelligence, 2021

2020

Learning Normal Patterns via Adversarial Attention-Based Autoencoder for Abnormal Event Detection in Videos.

[BibT_eX]

[DOI]

IEEE Trans. Multim., 2020

Confidence-Guided Self Refinement for Action Prediction in Untrimmed Videos.

[BibT_eX]

[DOI]

IEEE Trans. Image Process., 2020

Incremental transfer learning for video annotation via grouped heterogeneous sources.

[BibT_eX]

[DOI]

IET Comput. Vis., 2020

Video Captioning Using Weak Annotation.

[BibT_eX]

[DOI]

CoRR, 2020

Hierarchical Matching and Reasoning for Action Localization via Language Query.

[BibT_eX]

[DOI]

Tianyu Li

Proceedings of the Pattern Recognition and Computer Vision - Third Chinese Conference, 2020

Preserving Global and Local Temporal Consistency for Arbitrary Video Style Transfer.

[BibT_eX]

[DOI]

Jialu Chen

Proceedings of the MM '20: The 28th ACM International Conference on Multimedia, 2020

MemCap: Memorizing Style Knowledge for Image Captioning.

[BibT_eX]

[DOI]

Xiaoxun Zhang

Proceedings of the Thirty-Fourth AAAI Conference on Artificial Intelligence, 2020

Joint Commonsense and Relation Reasoning for Image and Video Captioning.

[BibT_eX]

[DOI]

Proceedings of the Thirty-Fourth AAAI Conference on Artificial Intelligence, 2020

2019

Temporal Action Localization in Untrimmed Videos Using Action Pattern Trees.

[BibT_eX]

[DOI]

IEEE Trans. Multim., 2019

Exploiting Images for Video Recognition: Heterogeneous Feature Augmentation via Symmetric Adversarial Learning.

[BibT_eX]

[DOI]

IEEE Trans. Image Process., 2019

Combining multiple deep cues for action recognition.

[BibT_eX]

[DOI]

Ruiqi Wang

Multim. Tools Appl., 2019

Relational Reasoning using Prior Knowledge for Visual Captioning.

[BibT_eX]

[DOI]

CoRR, 2019

Exploiting Human Pose for Weakly-Supervised Temporal Action Localization.

[BibT_eX]

[DOI]

Bing Zhu

Tianyu Li

Proceedings of the Pattern Recognition and Computer Vision - Second Chinese Conference, 2019

Learning Weighted Video Segments for Temporal Action Localization.

[BibT_eX]

[DOI]

Proceedings of the Pattern Recognition and Computer Vision - Second Chinese Conference, 2019

Joint Syntax Representation Learning and Visual Cue Translation for Video Captioning.

[BibT_eX]

[DOI]

Proceedings of the 2019 IEEE/CVF International Conference on Computer Vision, 2019

2018

Extracting Key Segments of Videos for Event Detection by Learning From Web Sources.

[BibT_eX]

[DOI]

IEEE Trans. Multim., 2018

Content-Attention Representation by Factorized Action-Scene Network for Action Recognition.

[BibT_eX]

[DOI]

IEEE Trans. Multim., 2018

A discriminative structural model for joint segmentation and recognition of human actions.

[BibT_eX]

[DOI]

Multim. Tools Appl., 2018

Action recognition with motion map 3D network.

[BibT_eX]

[DOI]

Neurocomputing, 2018

Exploiting Images for Video Recognition with Hierarchical Generative Adversarial Networks.

[BibT_eX]

[DOI]

Proceedings of the Twenty-Seventh International Joint Conference on Artificial Intelligence, 2018

Unsupervised Deep Learning of Mid-Level Video Representation for Action Recognition.

[BibT_eX]

[DOI]

Proceedings of the Thirty-Second AAAI Conference on Artificial Intelligence, 2018

2017

Recognizing key segments of videos for video annotation by learning from web image sets.

[BibT_eX]

[DOI]

Multim. Tools Appl., 2017

Heterogeneous domain adaptation method for video annotation.

[BibT_eX]

[DOI]

IET Comput. Vis., 2017

Representing Discrimination of Video by a Motion Map.

[BibT_eX]

[DOI]

Proceedings of the Advances in Multimedia Information Processing - PCM 2017, 2017

Heterogeneous Multi-group Adaptation for Event Recognition in Consumer Videos.

[BibT_eX]

[DOI]

Proceedings of the Image and Graphics - 9th International Conference, 2017

2016

Transfer Latent SVM for Joint Recognition and Localization of Actions in Videos.

[BibT_eX]

[DOI]

IEEE Trans. Cybern., 2016

Heterogeneous discriminant analysis for cross-view action recognition.

[BibT_eX]

[DOI]

Neurocomputing, 2016

A Hierarchical Video Description for Complex Activity Understanding.

[BibT_eX]

[DOI]

Int. J. Comput. Vis., 2016

Multi-group-multi-class domain adaptation for event recognition.

[BibT_eX]

[DOI]

Yang Feng

IET Comput. Vis., 2016

Multimedia event detection via deep spatial-temporal neural networks.

[BibT_eX]

[DOI]

Proceedings of the IEEE International Conference on Multimedia and Expo, 2016

2015

Cross-domain structural model for video event annotation via web images.

[BibT_eX]

[DOI]

Multim. Tools Appl., 2015

Heterogeneous Discriminant Analysis for Cross-View Action Recognition.

[BibT_eX]

[DOI]

Proceedings of the Neural Information Processing - 22nd International Conference, 2015

A Multiple Image Group Adaptation Approach for Event Recognition in Consumer Videos.

[BibT_eX]

[DOI]

Proceedings of the Image and Graphics - 8th International Conference, 2015

Finding Event Videos via Image Search Engine.

[BibT_eX]

[DOI]

Proceedings of the IEEE International Conference on Data Mining Workshop, 2015

Incremental Discriminant Learning for Heterogeneous Domain Adaptation.

[BibT_eX]

[DOI]

Peng Han

Proceedings of the IEEE International Conference on Data Mining Workshop, 2015

2014

Video Annotation via Image Groups from the Web.

[BibT_eX]

[DOI]

IEEE Trans. Multim., 2014

Learning a discriminative mid-level feature for action recognition.

[BibT_eX]

[DOI]

Sci. China Inf. Sci., 2014

A system for TRECVID MED by MCIS.

[BibT_eX]

[DOI]

Yang Feng

Wanchen Sui

Proceedings of the 2014 TREC Video Retrieval Evaluation, 2014

Modeling the Relationship of Action, Object, and Scene.

[BibT_eX]

[DOI]

Jing Liu

Yang Feng

Proceedings of the 22nd International Conference on Pattern Recognition, 2014

Multi-group Adaptation for Event Recognition from Videos.

[BibT_eX]

[DOI]

Proceedings of the 22nd International Conference on Pattern Recognition, 2014

Video Annotation by Incremental Learning from Grouped Heterogeneous Sources.

[BibT_eX]

[DOI]

Proceedings of the Computer Vision - ACCV 2014, 2014

Weakly Supervised Action Recognition and Localization Using Web Images.

[BibT_eX]

[DOI]

Proceedings of the Computer Vision - ACCV 2014, 2014

2013

Action Recognition Using Multilevel Features and Latent Structural SVM.

[BibT_eX]

[DOI]

IEEE Trans. Circuits Syst. Video Technol., 2013

Scene image retrieval via re-ranking semantic and packed dense interestpoints.

[BibT_eX]

[DOI]

Neurocomputing, 2013

Cross-View Action Recognition over Heterogeneous Feature Spaces.

[BibT_eX]

[DOI]

Proceedings of the IEEE International Conference on Computer Vision, 2013

2012

Transfer Discriminant-Analysis of Canonical Correlations for View-Transfer Action Recognition.

[BibT_eX]

[DOI]

Proceedings of the Advances in Multimedia Information Processing - PCM 2012, 2012

Annotating videos from the web images.

[BibT_eX]

[DOI]

Proceedings of the 21st International Conference on Pattern Recognition, 2012

Action recognition with discriminative mid-level features.

[BibT_eX]

[DOI]

Proceedings of the 21st International Conference on Pattern Recognition, 2012

View-Invariant Action Recognition Using Latent Kernelized Structural SVM.

[BibT_eX]

[DOI]

Proceedings of the Computer Vision - ECCV 2012, 2012

2011

Action recognition using context and appearance distribution features.

[BibT_eX]

[DOI]

Proceedings of the 24th IEEE Conference on Computer Vision and Pattern Recognition, 2011

2010

Incremental discriminant-analysis of canonical correlations for action recognition.

[BibT_eX]

[DOI]

Pattern Recognit., 2010

Discriminative human action recognition in the learned hierarchical manifold space.

[BibT_eX]

[DOI]

Image Vis. Comput., 2010

2009

Action recognition feedback-based framework for human pose reconstruction from monocular images.

[BibT_eX]

[DOI]

Pattern Recognit. Lett., 2009

Tracking articulated objects by learning intrinsic structure of motion.

[BibT_eX]

[DOI]

Pattern Recognit. Lett., 2009

Incremental discriminative-analysis of canonical correlations for action recognition.

[BibT_eX]

[DOI]