Takashi Shibuya

Orcid: 0000-0002-4277-0164

Affiliations:

Sony Corporation, Tokyo, Japan
University of Tsukuba, Japan
University of Tokyo, Japan (former)

According to our database¹, Takashi Shibuya authored at least 53 papers between 2009 and 2025.

Collaborative distances:

Dijkstra number² of four.
Erdős number³ of four.

Timeline

Legend:

Book

In proceedings

Article

PhD thesis

Dataset

Other

Bibliography

2025

StereoSync: Spatially-Aware Stereo Audio Generation from Video.

[BibT_eX]

[DOI]

Christian Marinoni

Riccardo Fosco Gramaccioni

CoRR, October, 2025

SONA: Learning Conditional, Unconditional, and Mismatching-Aware Discriminator.

[BibT_eX]

[DOI]

CoRR, October, 2025

SoundReactor: Frame-level Online Video-to-Audio Generation.

[BibT_eX]

[DOI]

CoRR, October, 2025

TITAN-Guide: Taming Inference-Time AligNment for Guided Text-to-Video Diffusion Models.

[BibT_eX]

[DOI]

CoRR, August, 2025

Stereo Sound Event Localization and Detection with Onscreen/offscreen Classification.

[BibT_eX]

[DOI]

Kazuki Shimada

Archontis Politis

Irán R. Román

Parthasaarathy Sudarsanam

CoRR, July, 2025

Step-by-Step Video-to-Audio Synthesis via Negative Audio Guidance.

[BibT_eX]

[DOI]

CoRR, June, 2025

Vid-CamEdit: Video Camera Trajectory Editing with Generative Rendering from Estimated Geometry.

[BibT_eX]

[DOI]

CoRR, June, 2025

DCASE2025 Task3 Stereo SELD Dataset.

[BibT_eX]

[DOI]

Kazuki Shimada

Archontis Politis

Irán R. Román

Parthasaarathy Sudarsanam

Dataset, June, 2025

Forging and Removing Latent-Noise Diffusion Watermarks Using a Single Image.

[BibT_eX]

[DOI]

CoRR, April, 2025

DCASE2025 Task3 Stereo SELD Dataset.

[BibT_eX]

[DOI]

Kazuki Shimada

Archontis Politis

Irán R. Román

Parthasaarathy Sudarsanam

Dataset, April, 2025

HumanGif: Single-View Human Diffusion with Generative Prior.

[BibT_eX]

[DOI]

CoRR, February, 2025

CCStereo: Audio-Visual Contextual and Contrastive Learning for Binaural Audio Generation.

[BibT_eX]

[DOI]

CoRR, January, 2025

Efficiency without Compromise: CLIP-aided Text-to-Image GANs with Increased Diversity.

[BibT_eX]

[DOI]

Proceedings of the International Joint Conference on Neural Networks, 2025

A Simple but Strong Baseline for Sounding Video Generation: Effective Adaptation of Audio and Video Diffusion Models for Joint Generation.

[BibT_eX]

[DOI]

Proceedings of the International Joint Conference on Neural Networks, 2025

SoundCTM: Unifying Score-based and Consistency Models for Full-band Text-to-Sound Generation.

[BibT_eX]

[DOI]

Proceedings of the Thirteenth International Conference on Learning Representations, 2025

HERO: Human-Feedback Efficient Reinforcement Learning for Online Diffusion Model Finetuning.

[BibT_eX]

[DOI]

Proceedings of the Thirteenth International Conference on Learning Representations, 2025

MMDisCo: Multi-Modal Discriminator-Guided Cooperative Diffusion for Joint Audio and Video Generation.

[BibT_eX]

[DOI]

Proceedings of the Thirteenth International Conference on Learning Representations, 2025

MoLA: Motion Generation and Editing with Latent Diffusion Enhanced by Adversarial Training.

[BibT_eX]

[DOI]

Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops, 2025

Dyadic Mamba: Long-term Dyadic Human Motion Synthesis.

[BibT_eX]

[DOI]

Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops, 2025

MMAudio: Taming Multimodal Joint Training for High-Quality Video-to-Audio Synthesis.

[BibT_eX]

[DOI]

Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2025

Classifier-Free Guidance Inside the Attraction Basin May Cause Memorization.

[BibT_eX]

[DOI]

Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2025

2024

SAN: Inducing Metrizability of GAN with Discriminative Normalized Linear Layer.

[BibT_eX]

[DOI]

Dataset, April, 2024

HQ-VAE: Hierarchical Discrete Representation Learning with Variational Bayes.

[BibT_eX]

[DOI]

Trans. Mach. Learn. Res., 2024

Taming Multimodal Joint Training for High-Quality Video-to-Audio Synthesis.

[BibT_eX]

[DOI]

CoRR, 2024

SAVGBench: Benchmarking Spatially Aligned Audio-Video Generation.

[BibT_eX]

[DOI]

CoRR, 2024

TraSCE: Trajectory Steering for Concept Erasure.

[BibT_eX]

[DOI]

CoRR, 2024

Human-Feedback Efficient Reinforcement Learning for Online Diffusion Model Finetuning.

[BibT_eX]

[DOI]

CoRR, 2024

Embedded Topic Models Enhanced by Wikification.

[BibT_eX]

[DOI]

Takashi Shibuya

Takehito Utsuro

CoRR, 2024

SpecMaskGIT: Masked Generative Modeling of Audio Spectrograms for Efficient Audio Synthesis and Beyond.

[BibT_eX]

[DOI]

CoRR, 2024

MoLA: Motion Generation and Editing with Latent Diffusion Enhanced by Adversarial Training.

[BibT_eX]

[DOI]

CoRR, 2024

SoundCTM: Uniting Score-based and Consistency Models for Text-to-Sound Generation.

[BibT_eX]

[DOI]

CoRR, 2024

Discriminator-Guided Cooperative Diffusion for Joint Audio and Video Generation.

[BibT_eX]

[DOI]

CoRR, 2024

Visual Echoes: A Simple Unified Transformer for Audio-Visual Generation.

[BibT_eX]

[DOI]

CoRR, 2024

GenWarp: Single Image to Novel Views with Semantic-Preserving Generative Warping.

[BibT_eX]

[DOI]

Proceedings of the Advances in Neural Information Processing Systems 38: Annual Conference on Neural Information Processing Systems 2024, 2024

SpecMaskGIT: Masked Generative Modeling of Audio Spectrogram for Efficient Audio Synthesis and Beyond.

[BibT_eX]

[DOI]

Proceedings of the 25th International Society for Music Information Retrieval Conference, 2024

SAN: Inducing Metrizability of GAN with Discriminative Normalized Linear Layer.

[BibT_eX]

[DOI]

Proceedings of the Twelfth International Conference on Learning Representations, 2024

Zero- and Few-Shot Sound Event Localization and Detection.

[BibT_eX]

[DOI]

Proceedings of the IEEE International Conference on Acoustics, 2024

Diffusion-Based Speech Enhancement with Joint Generative and Predictive Decoders.

[BibT_eX]

[DOI]

Proceedings of the IEEE International Conference on Acoustics, 2024

BIGVSAN: Enhancing Gan-Based Neural Vocoders with Slicing Adversarial Network.

[BibT_eX]

[DOI]

Takashi Shibuya

Yuhta Takida

Yuki Mitsufuji

Proceedings of the IEEE International Conference on Acoustics, 2024

On the Language Encoder of Contrastive Cross-modal Models.

[BibT_eX]

[DOI]

Proceedings of the Findings of the Association for Computational Linguistics, 2024

2023

BigVSAN: Enhancing GAN-based Neural Vocoders with Slicing Adversarial Network.

[BibT_eX]

[DOI]

Takashi Shibuya

Yuhta Takida

Yuki Mitsufuji

Dataset, September, 2023

SAN: Inducing Metrizability of GAN with Discriminative Normalized Linear Layer.

[BibT_eX]

[DOI]

Dataset, July, 2023

SAN: Inducing Metrizability of GAN with Discriminative Normalized Linear Layer.

[BibT_eX]

[DOI]

Dataset, July, 2023

Extending Audio Masked Autoencoders toward Audio Restoration.

[BibT_eX]

[DOI]

Proceedings of the IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, 2023

Diffiner: A Versatile Diffusion-based Generative Refiner for Speech Enhancement.

[BibT_eX]

[DOI]

Proceedings of the 24th Annual Conference of the International Speech Communication Association, 2023

XMD: An End-to-End Framework for Interactive Explanation-Based Debugging of NLP Models.

[BibT_eX]

[DOI]

Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics: System Demonstrations, 2023

2022

A Versatile Diffusion-based Generative Refiner for Speech Enhancement.

[BibT_eX]

[DOI]

CoRR, 2022

SQ-VAE: Variational Bayes on Discrete Representation with Self-annealed Stochastic Quantization.

[BibT_eX]

[DOI]

Proceedings of the International Conference on Machine Learning, 2022

Good Examples Make A Faster Learner: Simple Demonstration-based Learning for Low-resource NER.

[BibT_eX]

[DOI]

Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), 2022

2020

Nested Named Entity Recognition via Second-best Sequence Learning and Decoding.

[BibT_eX]

[DOI]

Takashi Shibuya

Eduard H. Hovy

Trans. Assoc. Comput. Linguistics, 2020

2013

Audio fingerprinting robust against reverberation and noise based on quantification of sinusoidality.

[BibT_eX]

[DOI]

Takashi Shibuya

Mototsugu Abe

Masayuki Nishiguchi

Proceedings of the 2013 IEEE International Conference on Multimedia and Expo, 2013

2010

Learning Interaction Rules through Compression of Sensori-Motor Causality Space.

[BibT_eX]

[DOI]

Proceedings of the Tenth International Conference on Epigenetic Robotics (EpiRob 2010), 2010

2009

Causality quantification and its applications: structuring and modeling of multivariate time series.

[BibT_eX]

[DOI]

Takashi Shibuya

Tatsuya Harada

Yasuo Kuniyoshi

Proceedings of the 15th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, Paris, France, June 28, 2009

Takashi Shibuya

Timeline

Legend:

Links

Online presence:

On csauthors.net:

Bibliography

Loading...