Jiongxiao Wang

According to our database¹, Jiongxiao Wang authored at least 24 papers between 2022 and 2026.

Collaborative distances:

Dijkstra number² of four.
Erdős number³ of three.

Timeline

Legend:

Book In proceedings Article PhD thesis Dataset Other

Links

On csauthors.net:

Bibliography

2026

Reinforcement Learning for Self-Improving Agent with Skill Library.

[BibT_eX]

[DOI]

Proceedings of the 64th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), 2026

2025

Robust Representation Consistency Model via Contrastive Denoising.

[BibT_eX]

[DOI]

CoRR, January, 2025

Preference Poisoning Attacks on Reward Model Learning.

[BibT_eX]

[DOI]

Proceedings of the IEEE Symposium on Security and Privacy, 2025

Test-time Backdoor Mitigation for Black-Box Large Language Models with Defensive Demonstrations.

[BibT_eX]

[DOI]

Proceedings of the Findings of the Association for Computational Linguistics: NAACL 2025, Albuquerque, New Mexico, USA, April 29, 2025

Benchmarking Vision Language Model Unlearning via Fictitious Facial Identity Dataset.

[BibT_eX]

[DOI]

Proceedings of the Thirteenth International Conference on Learning Representations, 2025

Robust Representation Consistency Model via Contrastive Denoising.

[BibT_eX]

[DOI]

Proceedings of the Thirteenth International Conference on Learning Representations, 2025

2024

FATH: Authentication-based Test-time Defense against Indirect Prompt Injection Attacks.

[BibT_eX]

[DOI]

CoRR, 2024

Consistency Purification: Effective and Efficient Diffusion Purification towards Certified Robustness.

[BibT_eX]

[DOI]

CoRR, 2024

Safeguarding Vision-Language Models Against Patched Visual Prompt Injectors.

[BibT_eX]

[DOI]

CoRR, 2024

Mitigating Fine-tuning Jailbreak Attack with Backdoor Enhanced Alignment.

[BibT_eX]

[DOI]

CoRR, 2024

BackdoorAlign: Mitigating Fine-tuning based Jailbreak Attack with Backdoor Enhanced Safety Alignment.

[BibT_eX]

[DOI]

Proceedings of the Advances in Neural Information Processing Systems 37: Annual Conference on Neural Information Processing Systems 2024, 2024

Consistency Purification: Effective and Efficient Diffusion Purification towards Certified Robustness.

[BibT_eX]

[DOI]

Proceedings of the Advances in Neural Information Processing Systems 37: Annual Conference on Neural Information Processing Systems 2024, 2024

Conversational Drug Editing Using Retrieval and Domain Feedback.

[BibT_eX]

[DOI]

Proceedings of the Twelfth International Conference on Learning Representations, 2024

RLHFPoison: Reward Poisoning Attack for Reinforcement Learning with Human Feedback in Large Language Models.

[BibT_eX]

[DOI]

Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), 2024

2023

Test-time Backdoor Mitigation for Black-Box Large Language Models with Defensive Demonstrations.

[BibT_eX]

[DOI]

CoRR, 2023

On the Exploitability of Reinforcement Learning with Human Feedback for Large Language Models.

[BibT_eX]

[DOI]

CoRR, 2023

ChatGPT-powered Conversational Drug Editing Using Retrieval and Domain Feedback.

[BibT_eX]

[DOI]

CoRR, 2023

Adversarial Demonstration Attacks on Large Language Models.

[BibT_eX]

[DOI]

CoRR, 2023

On the Exploitability of Instruction Tuning.

[BibT_eX]

[DOI]

Proceedings of the Advances in Neural Information Processing Systems 36: Annual Conference on Neural Information Processing Systems 2023, 2023

A Critical Revisit of Adversarial Robustness in 3D Point Cloud Recognition with Diffusion-Driven Purification.

[BibT_eX]

[DOI]

Proceedings of the International Conference on Machine Learning, 2023

DensePure: Understanding Diffusion Models for Adversarial Robustness.

[BibT_eX]

[DOI]

Proceedings of the Eleventh International Conference on Learning Representations, 2023

Defending against Adversarial Audio via Diffusion Model.

[BibT_eX]

[DOI]

Proceedings of the Eleventh International Conference on Learning Representations, 2023

2022

DensePure: Understanding Diffusion Models towards Adversarial Robustness.

[BibT_eX]

[DOI]

CoRR, 2022

Fast and Reliable Evaluation of Adversarial Robustness with Minimum-Margin Attack.

[BibT_eX]

[DOI]

Proceedings of the International Conference on Machine Learning, 2022

Jiongxiao Wang

Timeline

Legend:

Links

On csauthors.net:

Bibliography

Loading...