Donghuo Zeng

Hao Niu

Masato Taya

CoRR, April, 2026

PLATO-JDS: Enhancing Japanese Dialogue Systems Through Topic-Switch Adaptation.

[BibT_eX]

[DOI]

New Gener. Comput., February, 2026

Variance & Greediness: A comparative study of metric-learning losses.

[BibT_eX]

[DOI]

CoRR, January, 2026

Personality-Aware Reinforcement Learning for Persuasive Dialogue with LLM-Driven Simulation.

[BibT_eX]

[DOI]

Roberto Legaspi

Proceedings of the Persuasive Technology - 21st International Conference, 2026

Learning Audio-Visual Embeddings with Inferred Latent Interaction Graphs.

[BibT_eX]

[DOI]

Proceedings of the Advances in Information Retrieval, 2026

Dialogue Control and Its Consequences: Grounding, Policy, and User Perception in Persuasive Chatbots.

[BibT_eX]

[DOI]

Roberto Legaspi

Proceedings of the Extended Abstracts of the 2026 CHI Conference on Human Factors in Computing Systems, 2026

2025

Comparing Contrastive and Triplet Loss: Variance Analysis and Optimization Behavior.

[BibT_eX]

[DOI]

CoRR, October, 2025

Causal Discovery and Counterfactual Reasoning to Optimize Persuasive Dialogue Policies.

[BibT_eX]

[DOI]

CoRR, March, 2025

Generative Framework for Personalized Persuasion: Inferring Causal, Counterfactual, and Latent Knowledge.

[BibT_eX]

[DOI]

Proceedings of the 33rd ACM Conference on User Modeling, Adaptation and Personalization, 2025

Metric Learning with Progressive Self-Distillation for Audio-Visual Embedding Learning.

[BibT_eX]

[DOI]

Proceedings of the 2025 IEEE International Conference on Acoustics, 2025

Learning Hidden Causal Factors from Psychometrics Data Using Distributional Information.

[BibT_eX]

[DOI]

Proceedings of the 47th Annual Meeting of the Cognitive Science Society, 2025

2024

Top-down Activity Representation Learning for Video Question Answering.

[BibT_eX]

[DOI]

CoRR, 2024

Multi-object event graph representation learning for Video Question Answering.

[BibT_eX]

[DOI]

CoRR, 2024

Counterfactual Reasoning Using Predicted Latent Personality Dimensions for Optimizing Persuasion Outcome.

[BibT_eX]

[DOI]

Roberto Sebastian Legaspi

Proceedings of the Persuasive Technology - 19th International Conference, 2024

Identifying Latent State-Transition Processes for Individualized Reinforcement Learning.

[BibT_eX]

[DOI]

Proceedings of the Advances in Neural Information Processing Systems 37: Annual Conference on Neural Information Processing Systems 2024, 2024

Anchor-aware Deep Metric Learning for Audio-visual Retrieval.

[BibT_eX]

[DOI]

Proceedings of the 2024 International Conference on Multimedia Retrieval, 2024

2023

Learning Explicit and Implicit Dual Common Subspaces for Audio-visual Cross-modal Retrieval.

[BibT_eX]

[DOI]

ACM Trans. Multim. Comput. Commun. Appl., 2023

Two-Stage Triplet Loss Training with Curriculum Augmentation for Audio-Visual Retrieval.

[BibT_eX]

[DOI]

CoRR, 2023

TV-watching partner robot: Analysis of User's Experience.

[BibT_eX]

[DOI]

CoRR, 2023

Topic-switch adapted Japanese Dialogue System based on PLATO-2.

[BibT_eX]

[DOI]

CoRR, 2023

VideoAdviser: Video Knowledge Distillation for Multimodal Transfer Learning.

[BibT_eX]

[DOI]

IEEE Access, 2023

Triplet Loss with Curriculum Learning for Audio-Visual Retrieval.

[BibT_eX]

[DOI]

Proceedings of the IEEE International Symposium on Multimedia, 2023

Do I Have Your Attention: A Large Scale Engagement Prediction Dataset and Baselines.

[BibT_eX]

[DOI]

Proceedings of the 25th International Conference on Multimodal Interaction, 2023

EmotiW 2023: Emotion Recognition in the Wild Challenge.

[BibT_eX]

[DOI]

Proceedings of the 25th International Conference on Multimodal Interaction, 2023

2022

Complete Cross-triplet Loss in Label Space for Audio-visual Cross-modal Retrieval.

[BibT_eX]

[DOI]

Proceedings of the IEEE International Symposium on Multimedia, 2022

2021

Learning Explicit and Implicit Latent Common Spaces for Audio-Visual Cross-Modal Retrieval.

[BibT_eX]

[DOI]

CoRR, 2021

TV-watching Companion Robot Supported by Open-domain Chatbot "KACTUS".

[BibT_eX]

[DOI]

Proceedings of the MUM 2021: 20th International Conference on Mobile and Ubiquitous Multimedia, Leuven, Belgium, December 5, 2021

SHECS: A Local Smart Hands-free Elderly Care Support System on Smart AR Glasses with AI Technology.

[BibT_eX]

[DOI]

Proceedings of the IEEE International Symposium on Multimedia, 2021

2020

Deep Alignment Representation Learning for Multimodal Information Retrieval.

[BibT_eX]

[DOI]

PhD thesis, 2020

Deep Triplet Neural Networks with Cluster-CCA for Audio-Visual Cross-Modal Retrieval.

[BibT_eX]

[DOI]

ACM Trans. Multim. Comput. Commun. Appl., 2020

MTM Dataset for Joint Representation Learning among Sheet Music, Lyrics, and Musical Audio?

[BibT_eX]

[DOI]

CoRR, 2020

Unsupervised Generative Adversarial Alignment Representation for Sheet music, Audio and Lyrics.

[BibT_eX]

[DOI]

Proceedings of the 6th IEEE International Conference on Multimedia Big Data, 2020

2019

Learning Joint Embedding for Cross-Modal Retrieval.

[BibT_eX]

[DOI]

CoRR, 2019

Audio-Visual Embedding for Cross-Modal MusicVideo Retrieval through Supervised Deep CCA.

[BibT_eX]

[DOI]

CoRR, 2019

Personalized Music Recommendation with Triplet Network.

[BibT_eX]

[DOI]

CoRR, 2019

Learning Joint Embedding for Cross-Modal Retrieval.

[BibT_eX]

[DOI]

Proceedings of the 2019 International Conference on Data Mining Workshops, 2019

2018

Audio-Visual Embedding for Cross-Modal Music Video Retrieval through Supervised Deep CCA.

[BibT_eX]

[DOI]