Jan Christian Blaise Cruz

Proceedings of the Findings of the Association for Computational Linguistics: NAACL 2025, Albuquerque, New Mexico, USA, April 29, 2025

Extracting General-use Transformers for Low-resource Languages via Knowledge Distillation.

[BibT_eX]

[DOI]

Proceedings of the 31st International Conference on Computational Linguistics, 2025

Crowdsource, Crawl, or Generate? Creating SEA-VL, a Multicultural Vision-Language Dataset for Southeast Asia.

[BibT_eX]

[DOI]

Mohammad Rifqi Farhansyah

Joel Ruben Antony Moniz

Tack Hwa Wong

Thant Thiri Maung

Frederikus Hudi

David Anugraha

Muhammad Ravi Shulthan Habibi

Muhammad Reza Qorib

Amit Agarwal

Joseph Marvin Imperial

Hitesh Laxmichand Patel

Vicky Feliren

Bahrul Ilmi Nasution

Manuel Antonio Rufino

Genta Indra Winata

Rian Adam Rajagede

Carlos Rafael Catalan

Mohamed Fazli Mohamed Imam

Priyaranjan Pattnayak

Salsabila Zahirah Pranida

Kevin Pratama

Yeshil Bangera

Adisai Na-Thalang

Patricia Nicole Monderin

Kanyakorn Veerakanjana

Piyalitt Ittichaiwong

Matthew Theodore Roque

Karissa Vincentio

Takdanai Kreangphet

Phakphum Artkaew

Kadek Hendrawan Palgunadi

Hanif Muhammad Zhafran

Fenal Ashokbhai Ilasariya

Haochen Li

John Amadeo Daniswara

Filbert Aurelian Tjiaranata

Eryawan Presma Yulianrifat

Can Udomcharoenchaikit

Fadil Risdian Ansori

Mahardika Krisna Ihsani

Isaiah Edri W. Flores

Lester James Validad Miranda

Ming Shan Hee

Ikhlasul Akmal Hanif

M. Alif Al Hakim

Muhammad Rizky Sya'ban

Kun Kerdthaisong

Fajri Koto

Tirana Noor Fatyanosa

Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), 2025

2024

Thank You, Stingray: Multilingual Large Language Models Can Not (Yet) Disambiguate Cross-Lingual Word Sense.

[BibT_eX]

[DOI]

Elisa Gilbert

Hiroki Nomoto

CoRR, 2024

WorldCuisines: A Massive-Scale Benchmark for Multilingual and Multicultural Visual Question Answering on Global Cuisines.

[BibT_eX]

[DOI]

Genta Indra Winata

Frederikus Hudi

Patrick Amadeus Irawan

Ubaidillah Ariq Prathama

Haryo Akbarianto Wibowo

Maria Angelica Riera Machin

Jan Wira Gotama Putra

Junho Myung

Lucky Susanto

Marina Zhukova

Michael Anugraha

Natasha Santosa

Stephanie Yulia Salim

Yi Zhou

Yinxuan Gui

David Ifeoluwa Adelani

CoRR, 2024

SEACrowd: A Multilingual Multimodal Data Hub and Benchmark Suite for Southeast Asian Languages.

[BibT_eX]

[DOI]

Muhammad Ravi Shulthan Habibi

Rahmad Mahendra

Salsabil Maulana Akbar

Lester James V. Miranda

Joseph Marvin Imperial

Onno Pepijn Kampman

Joel Ruben Antony Moniz

Patrick Amadeus Irawan

Bin Wang

Chenxi Whitehouse

Ivan Halim Parmonangan

Sonny Lazuardi Hermawan

Muhammad Dehan Al Kautsar

Willy Fitra Hendria

Yasmin Moslem

Noah Flynn

CoRR, 2024

CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark.

[BibT_eX]

[DOI]

David Romero

Chenyang Lyu

Haryo Akbarianto Wibowo

David Ifeoluwa Adelani

Henok Biadglign Ademtew

Hernán Maina

Israel Abebe Azime

Jesús-Germán Ortiz-Barajas

Jay P. Gala

Jiahui Geng

Jinheon Baek

Jocelyn Dunstan

Laura Alonso Alemany

Kumaranage Ravindu Yasas Nagasinghe

Luciana Benotti

Luis Fernando D'Haro

Marcelo Viridiano

Marcos Estecha-Garitagoitia

Maria Camila Buitrago Cabrera

Mario Rodríguez-Cantelar

Mélanie Jouitteau

Mihail Mihaylov

Mohamed Fazli Mohamed Imam

Munkhjargal Gochoo

Munkh-Erdene Otgonbold

Tiago Timponi Torrent

Toqeer Ehsan

Vladimir Araujo

Yova Kementchedjhieva

CoRR, 2024

Samsung R&D Institute Philippines @ WMT 2024 Low-resource Languages of Spain Shared Task.

[BibT_eX]

[DOI]

Manuel Antonio Rufino

Proceedings of the Ninth Conference on Machine Translation, 2024

Samsung R&D Institute Philippines @ WMT 2024 Indic MT Task.

[BibT_eX]

[DOI]

Matthew Theodore Roque

Carlos Rafael Catalan

Manuel Antonio Rufino

Jesús-Germán Ortiz-Barajas

Proceedings of the Ninth Conference on Machine Translation, 2024

CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark.

[BibT_eX]

[DOI]

David Romero

Chenyang Lyu

Haryo Akbarianto Wibowo

Santiago Góngora

Aishik Mandal

Sukannya Purkayastha

Munkh-Erdene Otgonbold

Tiago Timponi Torrent

Frederico Belcavello

Marcelo Viridiano

Christian Salamea Palacios

Vladimir Araujo

Yova Kementchedjhieva

Mihail Mihaylov

Israel Abebe Azime

Henok Biadglign Ademtew

Bontu Fufa Balcha

Naome A. Etori

David Ifeoluwa Adelani

Rada Mihalcea

Atnafu Lambebo Tonja

Maria Camila Buitrago Cabrera

Gisela Vallejo

Marcos Estecha-Garitagoitia

Mario Rodríguez-Cantelar

Toqeer Ehsan

Rendi Chevi

Mohamed Fazli Mohamed Imam

Kumaranage Ravindu Yasas Nagasinghe

Proceedings of the Advances in Neural Information Processing Systems 38: Annual Conference on Neural Information Processing Systems 2024, 2024

SEACrowd: A Multilingual Multimodal Data Hub and Benchmark Suite for Southeast Asian Languages.

[BibT_eX]

[DOI]

Muhammad Ravi Shulthan Habibi

Rahmad Mahendra

Salsabil Maulana Akbar

Lester James V. Miranda

Joseph Marvin Imperial

Onno Kampman

Joel Ruben Antony Moniz

Patrick Amadeus Irawan

Bin Wang

Chenxi Whitehouse

Ivan Halim Parmonangan

Sonny Lazuardi Hermawan

Muhammad Dehan Al Kautsar

Willy Fitra Hendria

Yasmin Moslem

Noah Flynn

Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing, 2024

2023

Multilingual Large Language Models Are Not (Yet) Code-Switchers.

[BibT_eX]

[DOI]

CoRR, 2023

Prompting Multilingual Large Language Models to Generate Code-Mixed Texts: The Case of South East Asian Languages.

[BibT_eX]

[DOI]

Long Phan

Yin Lin Tan

CoRR, 2023

Samsung R&D Institute Philippines at WMT 2023.

[BibT_eX]

[DOI]

Proceedings of the Eighth Conference on Machine Translation, 2023

Multilingual Large Language Models Are Not (Yet) Code-Switchers.

[BibT_eX]

[DOI]

Genta Indra Winata

Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing, 2023

2022

Automatic WordNet Construction using Word Sense Induction through Sentence Embeddings.

[BibT_eX]

[DOI]

Axel Alba

Trisha Gail Pelagio

Bryce Anthony Ramirez

CoRR, 2022

Using Synthetic Data for Conversational Response Generation in Low-resource Settings.

[BibT_eX]

[DOI]

CoRR, 2022

Samsung Research Philippines - Datasaur AI's Submission for the WMT22 Large Scale Multilingual Translation Task.

[BibT_eX]

[DOI]

Lintang Sutawika

Proceedings of the Seventh Conference on Machine Translation, 2022

Improving Large-scale Language Models and Resources for Filipino.

[BibT_eX]

[DOI]

Proceedings of the Thirteenth Language Resources and Evaluation Conference, 2022

Using Synthetic Data to Train a Conversational Response Generation Model in Low Resource Settings.

[BibT_eX]

[DOI]

Proceedings of the International Conference on Asian Language Processing, 2022

2021

Data Processing Matters: SRPH-Konvergen AI's Machine Translation System for WMT'21.

[BibT_eX]

[DOI]

Lintang Sutawika

Proceedings of the Sixth Conference on Machine Translation, 2021

Simplifying Paragraph-Level Question Generation via Transformer Language Models.

[BibT_eX]

[DOI]

Luis Enrico Lopez

Diane Kathryn Cruz

Proceedings of the PRICAI 2021: Trends in Artificial Intelligence, 2021

Exploiting News Article Structure for Automatic Corpus Generation of Entailment Datasets.

[BibT_eX]

[DOI]

Jose Kristian Resabal

James Lin

Proceedings of the PRICAI 2021: Trends in Artificial Intelligence, 2021

2020

Investigating the True Performance of Transformers in Low-Resource Languages: A Case Study in Automatic Corpus Creation.

[BibT_eX]

[DOI]

Jose Kristian Resabal

James Lin

CoRR, 2020

Establishing Baselines for Text Classification in Low-Resource Languages.

[BibT_eX]

[DOI]

CoRR, 2020

Transformer-based End-to-End Question Generation.

[BibT_eX]

[DOI]

Luis Enrico Lopez

Diane Kathryn Cruz

CoRR, 2020

Localization of Fake News Detection via Multitask Transfer Learning.

[BibT_eX]

[DOI]

Julianne Agatha Tan

Proceedings of The 12th Language Resources and Evaluation Conference, 2020

2019

Evaluating Language Model Finetuning Techniques for Low-resource Languages.

[BibT_eX]

[DOI]