Conference Programme - Day 1

Document sans nom

Day 1

Wednesday, 13 May 2026

09:30 - 11:00

Opening Ceremony

11:00 - 11:20

Coffee Break

11:20 - 13:00

Session O1: Dialogue, Conversational Systems, Chatbots, Human-Robot Interaction - Room 1

11:20 - 11:40

Beyond Generic Responses: Target-Aware Strategies for Countering Hate Speech
Yen-Yu Chang¹, Daryna Dementieva¹, Alexander Fraser²
¹Technical University of Munich, ²Ludwig-Maximilians-Universität München

11:40 - 12:00

Topic-Initiator: A Proactive Chatbot with Personalized Topic RAG for Enhancing Willingness to Converse
Kazuya Matsuo¹, Atsushi Otsuka², Narichika Nomoto³, Makoto Nakatsuji¹
¹NTT, ²NTT Corporation, ³NTT Corporration

12:00 - 12:20

CoachLah: A SinglishEnglish Parallel Corpus of Health Coaching Conversations with Behavior Goal Annotations
Iva Bojic¹, Mathieu Ravaut², Stephanie Hilary Xinyi Ma¹, Doreen Tan³, Andy Hau Yan Ho¹, Andy Khong¹
¹Nanyang Technological University, ²Abu Dhabi Investment Authority, ³National University of Singapore

12:20 - 12:40

Faithful Medical Dialogue Generation Using Homo-Heterogeneous Exemplar-based In-Context Knowledge Grounding
Priyanshu Priya, Hardik Goyal, Asif Ekbal
Indian Institute of Technology Patna

12:40 - 13:00

Investigating Proactivity in Multimodal Task-Guidance Dialogues
Sofia Brenna¹, Elisabetta Jezek², Matthias Kraus³, Bernardo Magnini⁴
¹FBK, Unibz, ²University of Pavia, ³Augsburg University, ⁴FBK

11:20 - 13:00

Session O2: Interpretability, Explainability I - Room 2

11:20 - 11:40

REMIND: Input Loss Landscapes Reveal Residual Memorization in Post-Unlearning LLMs
Liran Cohen, Yaniv Nemcovesky, Avi Mendelson
Technion Israel Institute of Technology

11:40 - 12:00

Why So Separate: Analyzing In-Context Learning from a Vector Space Perspective
Tobias Kalmbach¹ and Sandipan Sikdar²
¹L3S Research Center, Leibniz University Hannover, ²Leibniz University Hannover

12:00 - 12:20

Explaining Explanations: Interpretability Methods for Discourse Analysis of Transformer Attention Maps
Louis Escouflaire¹, Jérémie Bogaert², Antonin Descampe², Cédrick Fairon³, Francois-Xavier Standaert⁴
¹Massachusetts Institute of Technology, ²UCLouvain, ³Université catholique de Louvain, CENTAL, ⁴UCL Crypto Group

12:20 - 12:40

TempPerturb-Eval: On the Joint Effects of Internal Temperature and External Perturbations in RAG Robustness
Yongxin Zhou¹, Philippe Mulhem², Didier Schwab³
¹Université Grenoble Alpes, ²LIG-CNRS, ³Univ. Grenoble Alpes

12:40 - 13:00

Refusal Steering: Fine-grained Control over LLM Refusal Behaviour for Sensitive Topics
Iker García-Ferrero, David Montero, Roman Orus
Multiverse Computing

11:20 - 13:00

Session O3: Document Classification, Information Retrieval and Cross-lingual Retrieval - Room 3

11:20 - 11:40

To Predict or Not to Predict? Towards Reliable Uncertainty Estimation in the Presence of Noise
Nouran Khallaf and Serge Sharoff
University of Leeds

11:40 - 12:00

An Extreme Multi-label Text Classification (XMTC) Library Dataset: What If We Took "Use of Practical AI in Digital Libraries" Seriously?
Jennifer D'Souza¹, Sameer Sadruddin¹, Maximilian Kaehler², Andrea Salfinger³, Luca Zaccagna³, Francesca Incitti³, Lauro Snidaro³, Osma Suominen⁴
¹TIB Leibniz Information Centre for Science and Technology, ²Deutsche Nationalbibliothek, ³University of Udine, ⁴National Library of Finland

12:00 - 12:20

A Historical Database for the Study of Obstruent-Lateral Palatalization in Ibero-Romance
Andrea García Covelo
LMU Munich

12:20 - 12:40

Is Clinical Text Enough? A Multimodal Study on Mortality Prediction in Heart Failure Patients
Oumaima El Khettari¹, Virgile Barthet², Guillaume Hocquet³, Joconde Weller³, Emmanuel Morin⁴, Pierre Zweigenbaum²
¹Nantes Université - LS2N, ²LISN, CNRS, Université Paris-Saclay, ³Direction of Medical Information, Prospects and Data Sciences, Hôpitaux Paris Saint-Joseph and Marie-Lannelongue, Paris, Franc, ⁴LS2N UMR CNRS 6004

12:40 - 13:00

HistoriQA-ThirdRepublic: Multi-Hop Question Answering Corpus for Historical Research, Parliamentary Debates from the French Third Republic (1870-1940)
Aurelien Pellet¹, Marie Puren², Julien PEREZ³
¹LRE - EPITA, EPITECH, ²LRE (EPITA), ³LRE, EPITA

11:20 - 13:00

Session O4: Evaluation, Validation, Quality Assurance and Benchmarking Methodologies - Room 4

11:20 - 11:40

Assessing the Political Fairness of Multilingual LLMs: A Case Study Based on a 21-Way Multiparallel EuroParl Dataset
Paul Lerner¹ and François Yvon²
¹Sorbonne Université, CNRS, ISIR, ²ISIR CNRS & Sorbonne Université

11:40 - 12:00

AfriStereo: A Culturally Grounded Dataset for Evaluating Stereotypical Bias in Large Language Models
Yann Le Beux¹, Oluchi Audu¹, Oche Ankeli¹, Dhananjay Balakrishnan², Melissah Weya¹, Marie Ralaiarinosy¹, Ignatius Ezeani³
¹YUX Design, ²Stanford University, ³Lancaster University

12:00 - 12:20

Judging Instruction Responses in a Low-Resource Language: A Case Study on Basque
David Ponce¹, Harritxu Gete¹, Thierry Etchegoyhen¹, Irune Zubiaga², Aitor Soroa³
¹Vicomtech, ²EHU/UPV, ³HiTZ Center - Ixa, University of the Basque Country UPV/EHU

12:20 - 12:40

Appeal, Align, Divide? Stance Detection for Group-Directed Messages in German Parliamentary Debates
Ines Rehbein¹, Maris Buttmann², Julian Schlenker¹, Simone Paolo Ponzetto¹
¹University of Mannheim, ²Mannheim University

12:40 - 13:00

BURMESE-SAN: Burmese NLP Benchmark for Evaluating Large Language Models
Thura Aung¹, Jann Montalan², Jian Ngui², Peerat Limkonchotiwat³
¹King Mongkut's Institute of Technology Ladkrabang, ²AI Singapore; National University of Singapore, ³AI Singapore

11:20 - 13:00

Session P1.1: Applications: Datasets and Benchmarks - Poster Area

Report-based Recommendations for Policy Making and Agency Operations: Dataset and LLM Evaluation
Aleksandra Edwards, Thomas Edwards, Jose Camacho-Collados, Alun Preece
Cardiff University

ConceptKT: A Benchmark for Concept-Level Deficiency Prediction in Knowledge Tracing
Yu-Chen Kang¹, Yu-Chien Tang², An-Zi Yen²
¹National Yang Ming Chiao Tung Universit, ²National Yang Ming Chiao Tung University

Open-access Dataset on Acceptability Ratings of Korean Clausal Constructions by Humans and GPT Models
Gyu-Ho Shin¹, Soo-Hwan Lee², Chanyoung Lee³
¹University of Illinois Chicago, ²Gyeongsang National University, ³Konkuk University

Talk2Ref: A Dataset for Reference Prediction from Scientific Talks
Frederik Broy¹, Maike Züfle¹, Jan Niehues²
¹Karlsruhe Institute of Technology, ²Karlsruhe Institut of Technology

MuSaG: A Multimodal German Sarcasm Dataset with Full-Modal Annotations
Aaron Scott¹, Maike Züfle², Jan Niehues³
¹Karlsruher Institut für Technologie, ²Karlsruhe Institute of Technology, ³Karlsruhe Institut of Technology

Icelandic Math Eval: A Competitive Mathematics Benchmark for Large Language Models
Hafsteinn Einarsson, Jökull Haraldsson, Ívar Derayat, Sigrún Lund, Benedikt Magnússon
University of Iceland

MazeEval: A Benchmark for Testing Sequential Decision-Making in Language Models
Hafsteinn Einarsson
University of Iceland

J-ClinicalBench: A Benchmark for Evaluating Large Language Models on Practical Clinical Tasks in Japanese
Seiji Shimizu¹, Tomohiro Nishiyama¹, HISADA Shohei¹, Yamato Himi¹, Shoko Wakamiya², Yuki Yanagisawa³, Masami Tsuchiya³, Satoko Hori³, Eiji ARAMAKI⁴
¹Nara Institute of Science and Technology, ²NAIST, ³Keio University, ⁴NAIST, Japan

Is One Dataset Enough for Evaluation? Studying Generalizability of Automated Essay Scoring Models
Sohaila Eltanbouly, Marwan Sayed, Tamer Elsayed
Qatar University

HiFi-KPI: A Dataset for Hierarchical KPI Extraction from Earnings Filings
Rasmus Jensen¹, Giovanni Rizzi², Rasmus Tjalk-Bøggild², Alexandre Iolov², Mike Zhang³, Johannes Bjerva⁴
¹Aalborg university, ²Alipes ApS, ³University of Copenhagen, ⁴Department of Computer Science, Aalborg University

UniSkill: A Dataset for Matching University Curricula to Professional Competencies
Nurlan Musazade¹, József Mezei¹, Mike Zhang²
¹Åbo Akademi University, ²University of Copenhagen

A Dataset for Evaluating ASR on Specialized Vocabulary
Emily Haubert Klering¹, Eduardo Cortes¹, Tatjana Chernenko², Mariana Vargas Trarbach¹, Gabriel de Oliveira Ramos¹, Sandro José Rigo¹, Maitê Dupont², Ana Treichel Vianna², Gabriela Krause dos Santos¹, Vinicius Meirelles Pereira², Denis de Araujo¹, Rafael Kunst¹
¹UNISINOS, ²SAP SE

SommBench: Assessing Sommelier Expertise of Language Models
William Brach¹, Tomas Bedej², Jacob Nielsen³, Jacob Pichna², Juraj Bedej², Eemeli Saarensilta², Julie Dupouy², Gianluca Barmina³, Andrea Blasi Núñez³, Peter Schneider-Kamp³, Kristian Kotál¹, Michal Ries¹, Lukas Galke Poech³
¹Slovak Technical University, ²sommify, ³University of Southern Denmark

CzechDocs: A Multiway Parallel Dataset of Formatted Documents for Minority Languages in Czechia
Josef Jon¹ and Ondrej Bojar²
¹Charles University, ²Charles University, MFF UFAL

11:20 - 13:00

Session P1.2: Applications: LLMs - Poster Area

An LLM-Based Assistant for Debt Waiver Court Procedures
Lluis Padro¹, Daniel Ferrés², Roser Saurí³, Mireia Artigot²
¹Universitat Politecnica de Catalunya, ²Universitat Pompeu Fabra, ³Process Talks, S.L.

Enhancing Clinical Trial Analysis through Large Language Models for Multi-Evidence Natural Language Inference
Shobanapriyan Chandrasegaran and Amal Htait
Aston University

A Systematic Comparison of Large Language Models for Data Annotation in NER Tasks
Muhammad Uzair Ul Haq¹, Davide Rigoni², Alessandro Sperduti³
¹Amajor SpA SB, ²University of Padua, Fondazione Bruno Kessler, ³University of Padova

Toward Generalized Cross-Lingual Hateful Language Detection with Web-Scale Data and Ensemble LLM Annotations
Dang Dang¹, Jelena Mitrovic², Michael Granitzer²
¹Passau University, ²University of Passau

Can LLMs Faithfully Explain Themselves in Low-Resource Languages? A Case Study on Emotion Detection in Persian
Mobina Mehrazar¹, Mohammad Amin Yousefi², Parisa Beygi³, Behnam Bahrak⁴
¹mobinamehrazar@ut.ac.ir, ²m.amin.yousefi@ut.ac.ir, ³The University of British Columbia, ⁴Tehran Institute for Advanced Studies (TEIAS)

Are LLMs Good Text Diacritizers? An Arabic and Yoruba Case Study
Hawau Olamide Toyin¹, Samar Mohamed Magdy², Hanan Aldarmaki³
¹Mohamed Bin Zayed University of Artificial Intelligence, ²ubc.ca;, ³MBZUAI

Automatic Suggestions of Supplements in the Herculaneum Papyri: Language Models and RESTful API
Angelo Mario Del Grosso¹, Gabriele Giannessi², Simone Zenzaro³, Federico Boschetti⁴
¹Cnr-Istituto di Linguistica Computazionale "Antonio Zampolli" (CNR-ILC), ²University of Pisa at Pisa, ³CNR-ILC, ⁴ILC-CNR

Designing LLM Agents for User-Centered Language Service Selection
Ryoichiro Ogawa, Donghui Lin, Fumito Uwano
Okayama University

User Profiling for Specification-Sensitive Recommendations with Large Language Model Prompting
Chih-Yu Chien¹, An-Zi Yen², Hen-Hsen Huang³, Hsin-Hsi Chen¹
¹National Taiwan University, ²National Yang Ming Chiao Tung University, ³Institute of Information Science, Academia Sinica

Comparing Traditional and LLM-based Approaches for Automated Scoring of Dutch Writing Products
Joni Kruijsbergen and Orphee De Clercq
LT3, Ghent University

``Decode the Law": Towards Legal Text Simplification with Large Language Models
Mohammed Rabbani¹, Subhadeep Roy², Sayantan Mitra³, Tulika Saha¹
¹IIIT Bangalore, ²University of Technology Nuremberg, ³Accenture Technology Labs

11:20 - 13:00

Session P1.3: Applications - Poster Area

CLASE: A Hybrid Method for Chinese Legalese Stylistic Evaluation
Yiran Ma¹, Yuxiao Ye², Huiyuan Xie²
¹Beijing University of Posts and Telecommunications, ²Tsinghua University

Neural Network-assisted Analysis of Tube Vocal Tract Models
Runhui Song¹, Johan Sjons¹, Axel Ekstrom²
¹Department of Linguistics and Philology, Uppsala University, ²Speech, Music & Hearing, KTH Royal Institute of Technology

Central Kurdish TTS and Its Application in Speech to Text Translation
Mohammad Mohammadamini¹, Meysam Shamsi², Marie Tahon³
¹Le Mans University, ²LIUM, Le Mans University, ³LIUM / Le Mans University

QuALA-NL: Question & Answer with Legal Attribution in Dutch
Romy van Drie¹, Roos Bakker², Daan Di Scala³, Maaike de Boer¹
¹TNO, ²TNO, University of Leiden, ³TNO, Utrecht University

SouDeC: Source Detection and Classification in Czech
Jirí Mírovský and Barbora Hladka
Charles University

Frame Semantic Patterns for Identifying Underreporting of Notifiable Events in Healthcare: The Case of Gender-Based Violence
Lívia Dutra¹, Arthur Lorenzi², Lais Berno², Franciany Campos², Karoline Biscardi³, Kenneth Brown², Marcelo Viridiano⁴, Frederico Belcavello², Ely Matos⁵, Olivia Guaranha⁶, Erik Santos⁶, Sofia Reinach⁶, Tiago Timponi Torrent²
¹Gothenburg University, ²Federal University of Juiz de Fora, ³Federal University of Minas Gerais, ⁴Case Western Reserve University, ⁵UFJF - Federal University of Juiz de Fora, ⁶Vital Strategies Brasil

PrePPER: A Preference Pattern-based Profiling Framework for Explainable Recommendation
Taisuke Usumi, Akiko Masaki, Sanae Muramatsu, Akira Sakamoto, Takeharu Eda
NTT Software Innovation Center

Evaluating the Impact of Source Diversity for RAG in Historical Research
Ruhi Mahadeshwar¹, Andreas van Cranenburgh¹, Tommaso Caselli², Malvina Nissim¹
¹University of Groningen, ²Rijksuniversiteit Groningen

Automatic Essay Scoring and Feedback Generation in Basque Language Learning
Ekhi Azurmendi¹, Xabier Arregi², Oier Lopez de Lacalle³
¹HiTZ Center - Ixa, University of the Basque Country UPV/EHU, ²HiTZ center. University of the Basque Country/Euskal Herriko Unibertsitatea, ³University of the Basque Country

Paragraph Segmentation Revisited: Towards a Standard Task for Structuring Speech
Fabian Retkowski¹ and Alexander Waibel²
¹Karlsruhe Insitute of Technology (KIT), ²Carnegie Mellon

High-Order Question Generation in a Multilingual Educational Context
Suna Uçar¹, Itziar Aldabe¹, Nora Aranberri¹, Orphee De Clercq²
¹University of the Basque Country (UPV/EHU), ²LT3, Ghent University

From Print to Digital and beyond: The Retrodigitization of a Historical Dictionary of Italian as a Hybrid Lexical Resource
Marco Biffi¹, Sebastiana Cucurullo², Manuel Favaro², Elisa Guadagnini², Simonetta Montemagni³, Eva Sassolini²
¹University of Florence & Accademia della Crusca, ²CNR-ILC, ³Istituto di Linguistica Computazionale "Antonio Zampolli"

Learning through News: Bridging the Gap between Algorithmic Recommendation and Human Curation
Florian Debaene¹, Loic De Langhe¹, Orphee De Clercq², Veronique Hoste²
¹Ghent University, ²LT3, Ghent University

MaskedVerbalizer: Automatic Verbalizer Construction for Few-Shot Text Classification in Low-Resource Right-to-Left Languages
Faizad Ullah¹, Furqan Sikandar², Areeba Waqar³, Faizan Ali⁴, Muhammad Sohaib Ayub⁵, Mubashar Mushtaq⁶, Asim Karim⁷
¹Department of Computer Science, Lahore University of Management Sciences (LUMS), ²Forman christian college and university, ³FCCU, ⁴Forman Christian College University, ⁵Data Science Institute, University of Galway, ⁶FC College - A Chartered University, ⁷Lahore University of Management Sciences (LUMS)

RBR: RAG-Based Open-Domain Question Answering Using a Ranking Approach to Document Retrieval
Priyatam Naravajhula and Vincent Ng
university of Texas at Dallas

Sentence-Level Back-Transliteration of Romanized Indian Languages: Performance Analysis and Challenges
Saurabh Kumar¹, Dhruvkumar Kakadiya¹, Sanasam Ranbir Singh², Sukumar Nandi¹
¹Indian Institute of Technology Guwahati, ²Indian Institute of Technology

Cross-Corpus CEFR Classification through Artificial Learners Perplexities
bernardo stearns¹, John Mccrae², Thomas Gaillat³
¹National University of Ireland, ²University of Galway, ³university rennes 2

11:20 - 13:00

Session P1.4.1: Digital Humanities I - Poster Area

CorpusClues: Scalable Unsupervised Similarity Search for Historical Texts Using MinHash-LSH
Paulien Lemay, Klaas Bentein, Els Lefever
Ghent University

BenCSSmark: Making the Social Sciences Count in LLM Research
Arnault Chatelain¹, Etienne Ollion¹, Qianwen Guan², Diandra Fabre³, Lorraine Goeuriot⁴, emile chapuis⁵, Abdelkrim Beloued⁵, Marie Candito⁶, Nicolas Hervé⁵, Didier Schwab⁷
¹CREST (Ecole Polytechnique, ENSAE, CNRS), ²LLF (Université Paris Cité and CNRS), ³Univ. Grenoble Alpes, CNRS, Grenoble INP, LIG, ⁴LIG, Université Grenoble Alpes, ⁵INA, ⁶LLF, Université Paris Cité, ⁷Univ. Grenoble Alpes

Predicting Topic (Co-)Occurrence Using Topic Networks Built from the Project Gutenberg Corpus
Bhuvanesh Verma¹ and Alexander Mehler²
¹University of Frankfurt, ²Goethe-University Frankfurt am Main

AraHopeCorpus: Annotation Guidelines and Dataset for Hope Speech in Arabic Social Media Crisis Discourse
Esra'a Sharqawi¹ and Wajdi Zaghouani²
¹Hamad Bin Khalifa University, ²Northwestern University Qatar

Cohesion-6K: An Arabic Dataset for Analyzing Social Cohesion and Conflict in Online Discourse
Aisha Al-Athba¹ and Wajdi Zaghouani²
¹Hamad Bin Khalifa University, ²Northwestern University Qatar

Reference-free Evaluation at Inference for NER/NEL over OCRed Historical Texts
Tien-Nam Nguyen¹, Adam Jatowt², Ahmed Hamdi³, Mickael Coustaty⁴, Thi Hong Hanh TRAN⁵, Antoine Doucet⁶
¹L3i, ²University of Innsbruck, ³IRIT, University of Toulouse, ⁴L3i laboratory - La Rochelle Université, ⁵Arkhn, ⁶University of La Rochelle

Echoes of the Troubadours: A Corpus of Troubadour Poetry for Stylometric Analysis and Authorship Attribution
Loic De Langhe¹, Orphee De Clercq², Veronique Hoste²
¹Ghent University, ²LT3, Ghent University

Gretino: A Greek and Latin Dataset to Benchmark Retrieval Systems in Classical Languages
Hawau Olamide Toyin¹, Federico Iezzi², Elia Scapini², Giulio Federico³, Giovanni Puccetti⁴
¹Mohamed Bin Zayed University of Artificial Intelligence, ²University of Modena and Reggio Emilia, ³Institute of Science and Technologies of Information, ⁴information Science and Technologies Institute "A. Faedo"

A Recipe for Adapting Multilingual Embedders to OCR-Error Robustness and Historical Texts
Andrianos Michail¹, Stylianos Psychias², Juri Opitz¹, Simon Clematide¹
¹University of Zurich, ²MSc Student - University of Zurich

Phrase-Level Segmentation on Medieval Corpora for Aligning Multilingual Texts
Lucence Ing¹, Matthias Gille Levenson², Carolina Macedo³
¹Inria, ²ENS de Lyon, ³École Nationale des chartes

11:20 - 13:00

Session P1.4.2: Digital Humanities II - Poster Area

RAGE: Roman and Greek Emotions
Frederick Riemenschneider, Jonathan Geiger, Thomas Kuhn-Treichel, Anette Frank
Heidelberg University

From Variance to Invariance: Qualitative Content Analysis for Narrative Graph Annotation
Junbo Huang¹, Max Weinig¹, Ulrich Fritsche¹, Ricardo Usbeck²
¹University of Hamburg, ²Leuphana University Lueneburg

A Dataset of Historical Medical Periodicals Annotated with Textual Genre
Vera Danilova and Sara Stymne
Uppsala University

Preserving Endangered Linguistic Heritage: Developing a Corpus for the Study of Contact-induced Changes in Corfioto
Giorgio Maria Di Nunzio¹ and Georgios Vardakis²
¹University of Padua, ²Ionian University

To Eat and beyond: A FrameNet-Inspired Annotation of Food and Its Uses over Time
Teresa Paccosi¹, Gauri Bhagwat², Marieke van Erp³
¹KNAW, ²DHLab, KNAW, ³KNAW Humanities Cluster

To Overfit or Not to Overfit? An Evaluation of HTR Workflow on 17Th-18Th Century French Corpus
Marine Tiger
Sorbonne-Université

Automatic Segmentation of Classical Tibetan Texts into Autochthonous and Allochthonous Regions
Guy Bilitski¹, Lev Shechter², Sonam Jamtsho³, Nir Marciano², Nicola Bajetta³, Rebecca Sunden³, Omri Drori², Kai Golan Hashiloni², Orr Zwebner², Asaf Shina², Orna Almogi³, Dorji Wangchuk³, Kfir Bar²
¹RUNI, ²Reichman University, ³University of Hamburg

RespondeoQA: A Benchmark for Bilingual Latin-English Question Answering
Marisa Hudspeth¹, Patrick Burns², Brendan O'Connor¹
¹University of Massachusetts Amherst, ²New York University

Transformer-Enabled Diachronic Analysis of Vedic Sanskrit: Neural Methods for Quantifying Types of Language Change
Ananth Hariharan¹ and David R. Mortensen²
¹University of Illinois Urbana-Champaign, ²Language Technologies Institute, Carnegie Mellon University

Ithaca Revisited: Benchmarking a Domain-Specific Model for Epigraphy in the Age of LLMs
Alessandro Locaputo¹, Andrea Brunello¹, Nicola Saccomanno¹, Paraskevi Platanou², Giuseppe Serra¹
¹University of Udine, ²National and Kapodistrian University of Athens

11:20 - 13:00

Session P1.5: Simplification, Accessibility - Poster Area

CEFR Level Prediction for Short Russian L2 Texts: Evaluating Classifiers and Instruction-Based LLMs
Anna Glazkova¹, Antonina Laposhina², Dmitry Morozov³
¹University of Tyumen, ²Pushkin State Russian Language Institute, ³Novosibirsk State University

Evaluation of Document-Level Text Simplification in Japanese
Iori Yamashita, Hikari Tanaka, Hajime Kiyama, Kexin Bian, Zhousi Chen, Mamoru Komachi
Hitotsubashi University

Parallel Corpus Filtering Based on Semantic Similarity and Surface Dissimilarity for Japanese Text Simplification with LLMs
Daisuke Maekawa¹, Tomoyuki Kajiwara², Takashi Ninomiya¹
¹Ehime University, ²Ehime University / The University of Osaka

A Multilingual Human Annotated Corpus of Original and Easy-to-Read Texts to Support Access to Democratic Participatory Processes
Verena Riegler¹, Stefan Bott², Horacio Saggion³, Almudena Rascón Alcaina⁴, Nouran Khallaf⁵
¹capito.ai, ²Universitat Pompe Fabra, ³Universitat Pompeu Fabra, ⁴Plena Inclusión Madrid, ⁵University of Leeds

Proffiliadur: Welsh Language Text Profiling Toolkit
Nicolás Gutiérrez-Rolón, Jonathan Davies, Tomos Williams, Dawn Knight, Fernando Alva-Manchego
Cardiff University

Recovering Registers from Leveled Wordlists
Yo Ehara
Tokyo Gakugei University

11:20 - 13:00

Session P1.6: Infrastructures, Policy and Legal Issues I - Poster Area

Fill-in-the-Blanks: Automatic Generation and Evaluation of Language Models' Pseudonyms for English and Swedish Texts
Maria Irena Szawerna¹ and Jacob Suchardt²
¹University of Gothenburg, ²Leipzig University

Integrating Services, Platforms and Resources into a National Infrastructure Cluster for FAIR Language and Cultural Data
Giulia Pedonese¹, Daniele Melaccio², Michele Mallia³, Monica Monachini⁴, Francesca Frontini⁵, Valeria Quochi⁶, Fahad Khan⁷, Angelo Mario Del Grosso⁸, Federico Boschetti⁹, Riccardo Del Gratta⁹
¹CNR - Istituto di Linguistica Computazionale "Antonio Zampolli", ²Istituto di Linguistica Computazionale ILC-CNR, ³Istituto di Linguistica Computazionale "A. Zampolli" - CNR Area di Pisa, ⁴Institute of Computational Linguistics "A. Zampolli" - CNR, ⁵Istituto di Linguistica Computazionale "A. Zampolli" - ILC Consiglio Nazionale delle Ricerche - CNR, ⁶Consiglio Nazionale delle Ricerche. Istituto di Linguistica Computazionale "A. Zampolli", ⁷Istituto di Linguistica Computazionale "Antonio Zampolli", CNR, ⁸Cnr-Istituto di Linguistica Computazionale "Antonio Zampolli" (CNR-ILC), ⁹ILC-CNR

Common European Language Data Space: Development, Current Status, and Future Perspectives
Stelios Piperidis¹, Penny Labropoulou², Dimitrios Galanis³, Khalid Choukri⁴, Andrejs Vasiljevs⁵, Mitos Deligiannis¹, Katerina Gkirtzou⁶, Dimitris Gkoumas¹, Athanasia Kolovou⁷, Leon Voukoutis², Kanella Pouli¹, Maria Giagkou⁸, Maria Gavriilidou², Katrin Marheinecke⁹, Elena Leitner⁹, Simon Ostermann¹⁰, Stefania Raccioppa⁹, Kossay Talmoudi¹¹, Victoria Arranz¹¹, Valérie Mapelli¹¹, Helene Mazo¹², Fernanda González Campo¹¹, Shi Yu¹¹, Aivars Be¯rzin¸s?⁵, Andis Lagzdin¸s?⁵, Georg Rehm⁹
¹Athena RC/ILSP, ²ILSP / Athena RC, ³Institute for Language and Speech Processing, Athena Research Center, ⁴ELRA/ELDA, ⁵Tilde, ⁶ILSP/Athena Research Center, ⁷National and Kapodistrian University of Athens, ⁸ILSP/ATHENA RC, ⁹DFKI, ¹⁰German Research Center for Artificial Intelligence (DFKI), ¹¹ELDA, ¹²ELRA

Euskorpora: A Strategic Framework for Digital Sovereignty and Linguistic Inclusion of Basque in the Era of AI
Victoria Arranz, Sara Arregi, Leire Barañano, Aitor García-Pablos
Euskorpora

Automating FAIRness: A FAIRification Tool within the Language Resources Infrastructure
Daniele Melaccio¹ and Monica Monachini²
¹Istituto di Linguistica Computazionale ILC-CNR, ²Institute of Computational Linguistics "A. Zampolli" - CNR

FIBER: Factual Inference Bias Evaluation Resource
Evren Ayberk Munis¹, Deniz Yilmaz², Arianna Muti³, Cagri Toraman²
¹Politecnico Di Torino, ²Middle East Technical University, Computer Engineering Department, ³Bocconi University

EthiQuest: LLM-Powered Ethical Questionnaire Generation for Research Review
ishank kapania, Radhika Mamidi, Rahul Mishra
IIIT-H | International Institute of Information Technology - Hyderabad

13:00 - 14:30

Lunch Break

14:30 - 15:15

Keynote Speaker: Nancy Chen - Room 1

15:15 - 15:20

Short Break (5mn)

15:20 - 17:00

Session O5: Inference, Reasoning, Question Answering I - Room 1

15:20 - 15:40

NegNLI-BR: A Brazilian Portuguese Benchmark for Negation in Natural Language Inference
Matheus Westhelle¹ and Viviane Moreira²
¹Universidade Federal do Rio Grande do Sul, ²Institute of Informatics - UFRGS

15:40 - 16:00

SWE-QA: A Dataset and Benchmark for Complex Code Understanding
Laila ELKOUSSY and Julien PEREZ
LRE, EPITA

16:00 - 16:20

Augmenting LLM Reasoning with Dynamic Notes Writing for Complex QA
Rishabh Maheshwary¹, Masoud Hashemi², Khyati Mahajan¹, Shiva Krishna Reddy Malay¹, sai rajeswar mudumba³, Sathwik Tejaswi Madhusudhan⁴, Spandana Gella⁵, Vikas Yadav¹
¹ServiceNow, ²ServiceNow, PLATO, ³university de montreal, ⁴Service Now, ⁵Amazon Alexa AI

16:20 - 16:40

Information Asymmetry across Language Varieties: A Case Study on Cantonese-Mandarin and Bavarian-German QA
Renhao Pei¹, Siyao Peng², Verena Blaschke², Robert Litschko², Barbara Plank²
¹University of Turku, ²LMU Munich

16:40 - 17:00

FRASE: Frame-based Structured Representations for Generalizable SPARQL Query Generation
Papa Abdou Karim Karou Diallo¹ and Amal Zouaq²
¹Polytchnique Montreal, ²Polytechnique Montreal

15:20 - 17:00

Session O6: Information Extraction and Text Mining I - Room 2

15:20 - 15:40

Representing Multimodality in Terminology Resources
Federica Vezzani
University of Padua

15:40 - 16:00

EPOP: A Benchmark Corpus for Assessing NLP Models on Structured Information Extraction in Plant Health
Claire Nedellec¹, Marine Courtin², Xinzhi Yao³, Marie Grosdidier¹, Isabelle Pieretti⁴, Sandy Duperier¹, Robert Bossy⁵
¹INRAE, ²LPP (CNRS) - Paris 3 Sorbonne Nouvelle, ³Huazhong Agricultural University, ⁴CIRAD, ⁵Institut National de Recherche pour l'Agriculture, l'Alimentation et l'Environnement

16:00 - 16:20

ReTaT: A Unified Benchmark for Relation Extraction across Text and Table
Mohamed Ettaleb¹, Thibault Ehrhart², Nathalie Aussenac-Gilles³, Yoan Chabot⁴, Mouna Kamel⁵, Véronique MORICEAU⁶, Raphael Troncy², Fanfu Wei²
¹Institut de Recherche en Informatique de Toulouse, ²EURECOM, ³CNRS - IRIT, ⁴Orange, ⁵IRIT, ⁶IRIT, Université de Toulouse

16:20 - 16:40

LitTx: A New Treatment Relation Extraction Dataset
Yuhang Jiang¹, Md Sultan Al Nahian², Li Hao Richie Xu¹, Rani Chikkanna¹, Ramakanth Kavuluru¹
¹University of Kentucky, ²Pennsylvania State University Harrisburg

16:40 - 17:00

LegitimNarrate: A Dataset for Analyzing Legitimation Mechanisms in Crowdfunding Narratives
Asmaa Lagrid¹, Sebastien Fournier², Benedicte ALDEBERT¹, Ali Ghods³, Daisy Bertrand³, Gael Leboeuf³
¹Aix-Marseille university (amu), ²LSIS, ³Aix-Marseille university

15:20 - 17:00

Session O7: Language Modeling and LRs I - Room 3

15:20 - 15:40

A Fine-tuned ASR Model for Historical American Dialect Recordings
Steven Coats
University of Oulu

15:40 - 16:00

A Comprehensive Full-Form Lexicon for Arabic NLP and Speech Technology
Yannis Haralambous¹ and Jack Halpern²
¹IMT Atlantique & CNRS LabSTICC, ²The CJK Dictionary Institute

16:00 - 16:20

MzansiText and MzansiLM: An Open Corpus and Decoder-Only Language Model for South African Languages
Anri Lombard, Temi Aina, Ethan Wolff, Elan Norvick, Sbonelo Gumede, Simbarashe Mawere, Francois Meyer, Jan Buys
University of Cape Town

16:20 - 16:40

Very Large-Scale Multilingual Resources for LLMs and MT. Mono- and Bi-lingual Data, Multilingual Evaluation, and Pre-Trained Models
Stephan Oepen¹, Nikolay Arefyev², Mikko Aulamo³, Marta Bañón⁴, Maja Buljan⁵, Laurie Burchell⁶, Lucas Charpentier⁷, Pinzhen Chen⁸, Mariia Fedorova², Ona de Gibert³, Barry Haddow⁹, Jan Hajic¹⁰, Jindrich Helcl², Andrey Kutuzov², Veronika Laippala¹¹, Zihao Li³, Bhavitvya Malik¹², Vladislav Mikhailov², Amanda Myntti¹¹, Dayyán O'Brien¹², Lucie Polakova¹⁰, Gema Ramírez-Sánchez¹³, Janine Siewert³, Pavel Stepachev¹⁴, Joerg Tiedemann³, Teemu Vahtola³, Dusan Varis¹⁵, Fedor Vitiugin¹⁶, Jaume Zaragoza¹³
¹Universitetet i Oslo, ²University of Oslo, ³University of Helsinki, ⁴Prompsit SL, ⁵Language Technology Group (LTG), University of Oslo, ⁶Common Crawl Foundation, ⁷Language Technology Group, University of Oslo, ⁸Queen's University Belfast, ⁹University of Edinburgh & Aveni, ¹⁰Charles University, ¹¹University of Turku, ¹²University of Edinburgh, ¹³Prompsit Language Engineering, ¹⁴The University of Edinburgh, ¹⁵Charles University, Institute of Formal and Applied Linguistics, ¹⁶Universitat Pompeu Fabra

16:40 - 17:00

Generation of Instruction and Preference Dataset for Improving Japanese Instruction Following in LLMs
Kei Moriyama¹, Takashi Kodama², Kouta Nakayama²
¹The University of Tokyo, ²National Institute of Informatics

15:20 - 17:00

Session O8: Less-Resourced/Endangered/Less-studied Languages - Room 4

15:20 - 15:40

Adapting Pretrained Models to Endangered Languages in Japan: A Comparative Study on Ryukyuan and Ainu Speech Recognition
Kohei Matsuura¹, Takanori Ashihara², Tatsuya Kawahara¹
¹Kyoto University, ²NTT Corporation

15:40 - 16:00

Prerequisites for Advancing Automatic Speech Recognition in Breton
Morgan Grobol¹, Alice Millour², Wassim Zemouri³, Yuna Drapier⁴, Mélanie Jouitteau⁵
¹Université Paris Nanterre, ²Université Paris 8 Vincennes Saint-Denis, ³École supérieure en informatique 08 Mai 1945 - Sidi Bel Abbès -, ⁴Dastum, ⁵CNRS

16:00 - 16:20

Integrating TEI, NER/NEL, Textometry, and Linked Data for a Semantically Enriched Interview Corpus
Ranka Stankovic¹, Tamara Vucenovic², Biljana Rujevic³, Milica Ikonic Neic⁴, Mihailo koric⁵
¹University of Belgrade - Faculty of Mining and Geology, ²University Metropolitan, Faculty of Management, ³University of Belgrade, Faculty of Mining and Geology, ⁴University of Belgrade, Faculty of Philology, ⁵University of Belgrade Faculty of Mining and Geology

16:20 - 16:40

Uhura: A Benchmark for Evaluating Scientific Question Answering and Truthfulness in Low-Resource African Languages
Edward Bayes¹, Israel Abebe Azime², Jesujoba Alabi², Jonas Kgomo³, Tyna Eloundou⁴, Elizabeth Proehl⁴, Kai Chen⁴, Imaan Khadir³, Naome Etori⁵, Shamsuddeen Hassan Muhammad⁶, Choice Mpanza⁷, Igneciah Pocia Thete⁷, Dietrich Klakow², David Ifeoluwa Adelani⁸
¹General Purpose, ²Saarland University, ³Equiano Institute, ⁴OpenAI, ⁵University of Minnesota - Twin Cities, ⁶Bayero University, Kano, ⁷University of South Africa, ⁸McGill University / MILA

16:40 - 17:00

Dialectal Filtering: Synthesizing Kurdish Corpora for Low-Resource Varieties by Utilizing "Noise" in Large Textual Data
Christian Schuler¹, Raman Ahmad², Anrán Wáng¹, Daniil Gurgurov³, Timo Baumann⁴, Simon Ostermann⁵, Josef van Genabith³
¹Saarland University, ²HAW Hamburg, Department Informatik, ³DFKI, ⁴Ostbayerische Technische Hochschule Regensburg, ⁵German Research Center for Artificial Intelligence (DFKI)

15:20 - 17:00

Session P2.1.1: Corpora and Treebanks I - Poster Area

HybridCodeAuthorship: A Benchmark Dataset for Line-Level Code Authorship Detection
Luke Patterson, Li Wang, Adam Faulkner
Capital One

CorEGe-PT: Compiling a Large Corpus of Academic Texts in~Portuguese
Tanara Zingano Kuhn¹, José Matos², Bruno Neves³, Daniela Pereira⁴, Elisabete Cação⁴, Ivo Simões², Jacinto Estima², Delfim Leão⁵, Hugo Goncalo Oliveira⁶
¹Research Centre for General and Applied Linguistics (CELGA-ILTEC), University of Coimbra, ²University of Coimbra, CISUC/LASI, Department of Informatics Engineering, ³Universidade de Coimbra, Biblioteca Geral, ⁴Independent Researcher, ⁵University of Coimbra, ⁶CISUC, DEI, University of Coimbra

SLURP-TN : Resource for Tunisian Dialect Spoken Language Understanding
Haroun Elleuch¹, Salima Mdhaffar², Yannick Estève³, Fethi Bougares⁴
¹Elyadata - LIA, ²LIA - University of Avignon, ³LIA - Avignon Université, ⁴LIUM- Le Mans Université

Constructing and Annotating Historical Multilingual Parallel Text Collections on the TEITOK Platform
Maarten Janssen¹, Anna Jouravel², Piroska Lendvai³
¹UFAL, Charles University, LINDAT/CLARIAH-CZ, ²Albert-Ludwigs-Universität Freiburg, ³Bavarian Academy of Sciences

Toward Conversational Hungarian Speech Recognition: Introducing the BEA-Large and BEA-Dialogue Datasets
Máté Gedeon¹, Piroska Barta¹, Peter Mihajlik¹, Tekla Etelka Graczi², Anna Kohári³, Katalin Mády⁴
¹Budapest University of Technology and Economics, ²MTA Research Institute for Linguistics & MTA-ELTE "Lendület" Lingual Articulation Research Group, ³Research Institute for Linguistics of the Hungarian Academy of Sciences, ⁴Research Institute for Linguistics, Hungarian Academy of Sciences

Developing the German Medical Text Corpus (GeMTeX): Legal Compliance and Semantic Enrichment
Justin Hofenbitzer¹, Christina Lohr², Andrea Riedel³, Rebekka Kiser¹, Aliaksandra Shutsko⁴, Abanoub Abdelmalak⁴, Peter Klügl⁵, Jutta Romberg⁶, Sarah Riepenhausen⁷, Miriam Schechner⁸, Jakob Faller³, Frank Meineke², Luise Modersohn¹, Markus Löffler², Juliane Fluck⁹, Udo Hahn¹⁰, Stefan Schulz⁵, Martin Boeker¹
¹Technical University of Munich, ²Universität Leipzig, ³Friedrich-Alexander-Universität Erlangen-Nürnberg, ⁴ZB Med, ⁵Averbis GmbH, ⁶Charité Berlin, ⁷University of Münster, ⁸Ludwigs Maximilian University of Munich, ⁹ZB MED Information Centre for Life Sciences, ¹⁰Friedrich-Schiller-Universitaet Jena

MaiChat: A Text-based Dialogue Corpus Rich in Conversational Features
Mai Hoang Dao, Catherine Lai, Peter Bell
University of Edinburgh

Saudi ASWAT: A Large-Scale Corpus of Spontaneous Saudi Arabic Speech
Abdullah I. Alharbi¹, Afrah Altamimi², Muneera Alhoshan³, Amal Almazrua⁴, Halah Alharbi⁵, Bayan Almuqhim⁵, Hawra Aljasim⁵, Abdulrahman Alosaimy⁶, Yahya Asiri⁷, Abdullah Alfaifi⁴
¹King Salman Global Academy for Arabic, ²KSGAAL, ³King Salman Global Global Academy for Arabic Language, ⁴KSAA, ⁵King Salman Global Academy for Arabic Language, ⁶King Salman Academy for Arabic Language / Imam Mohammed Bin Saud Islamic University, ⁷King salman global academy of Arabic language

SciCiteVal: A Multi-Domain Dataset for Scientific Citation Verification
Qinyue Liu¹, Yongxin Zhou², Cyril Labbe³
¹Univ Grenoble Alpes, Laboratoire d'Informatique de Grenoble, ²Université Grenoble Alpes, ³Univ. Grenoble Alpes

RuznamceNER: A Named Entity Recognition Dataset for Ottoman Turkish
Esma Bilgin Tasdemir¹, Dilara Gürer², Saziye Ozates²
¹Istanbul Medeniyet University, ²Bogazici University

Scripting History: A Diachronic Urdu Text and Image Corpus from the 18Th to 19Th Centuries
Sana Shams¹, Sahar Rauf², Asad Mustafa³, Muhammad Javed⁴, Qurat-ul-Ain Akram⁵, Sarmad Hussain⁴, Miriam Butt⁶
¹Al-Khawarizmi Institute of Computer Science, University of Engineering and Technology, ²University of Engineering and Technology, ³CLE-UET, ⁴Center for Language Engineering, KICS, UET, ⁵UET, ⁶University of Konstanz

IREKIER: An Easy Read Corpus for Basque and Spanish
Jesús Calleja and Thierry Etchegoyhen
Vicomtech

15:20 - 17:00

Session P2.1.2: Corpora and Treebanks II - Poster Area

MekongPhon: A Large-Scale Parallel IPA Corpus for Lao and Khmer
Ammon Shurtz, Christian Richardson, Stephen Richardson
Brigham Young University

CorSpell: Introducing a Semiautomatic Tool for Spelling Normalization in Brazilian Portuguese
Juliana Schoffen¹, Dennis Giovani Balreira¹, Elisa Marchioro Stumpf¹, Larissa Goulart², Tanara Zingano Kuhn³, Rafael Oleques Nunes⁴, Gabriel Ricci Pazzinato¹, Isadora Dahmer Hanauer¹, José Henrique de Souza Silva¹, Luiza Sarmento Divino¹, Marine Matte⁵
¹Federal University of Rio Grande do Sul, ²Montclair State University, ³Research Centre for General and Applied Linguistics (CELGA-ILTEC), University of Coimbra, ⁴UFRGS, ⁵Federal Institute Sul-rio-grandense (IFSul)

Meta4XNLI-ptBR: Brazilian Portuguese Extension of Meta4XNLI Corpus
Karina Johansson¹, Fernanda Assi¹, Isabella da Silva², Rafael Passador¹, Isabela Rodrigues¹, Aline Paes³, Helena Caseli⁴
¹Federal University of São Carlos (UFSCar), ²Universidade Federal Fluminense (UFF), ³Institute of Computing, Universidade Federal Fluminense, ⁴Federal University of São Carlos

More than "Oh": Grounding Observable Events with Grunts in Multimodal Dialogue
Richard Brutti and James Pustejovsky
Brandeis University

COME-ALPs: Coreference Annotation with MErging Heuristics Using ALignment-based Projection in Parallel Corpora
gabriela gonzalez saez¹, Mariam Nakhle², Illia Kholosha², Rachel Atherly², Marco Dinarelli³
¹Universite Grenoble Alpes, ²Université Grenoble Alpes, ³LIG

MEUR: A Benchmark for Evaluating Vision-Language Models on Multimodal Event Understanding and Reasoning
Zimu Wang¹, Yuqi Wang², Tong Chen³, Changyu Zeng³, Hongbin Na⁴, Nijia Han³, Fuyu Xing⁵, Qi Chen³, Qiufeng Wang⁶, Anh Nguyen¹, Shuihua Wang³, Ling Chen⁴, Jionglong Su³, Haiyang Zhang³, Wei Wang³
¹University of Liverpool, ²Xi'an Jiaotong Liverpool University, ³Xi'an Jiaotong-Liverpool University, ⁴University of Technology Sydney, ⁵Carnegie Mellon University, ⁶Xi'anJiaoTong-Liverpool University

Building Collaborative Speech Corpora for Low-Resource Languages: The Galician Dataset in Mozilla Common Voice
Adina Vladu, Elisa Fernández Rei, María Pérez Lago
Instituto da Lingua Galega, Universidade de Santiago de Compostela

Frame-Guided Synthetic Claim Generation for Automatic Fact-Checking Using High-Volume Tabular Data
Jacob Devasier¹, Akshith Putta¹, Qing Wang², Alankrit Moses¹, Chengkai Li¹
¹University of Texas at Arlington, ²The University of Texas at Arlington

A Bilingual Bimodal Benchmark for Arabic-English NLP across Grammatical Correction, Essay Scoring, Morphological Tagging, and Speech Recognition
Bashar Alhafni¹, Injy Hamed², Fadhl Eryani³, David Palfreyman⁴, Nizar Habash⁵
¹MBZUAI, ²Mohamed bin Zayed University of Artificial Intelligence, ³University of Tübingen, ⁴Zayed University, ⁵New York University Abu Dhabi

Developing a Guideline for the Labovian-Structural Analysis of Oral Narratives in Japanese
Amane Watahiki¹, Tomoki Doi¹, Akari Kikuchi², Hiroshi Ohata², Yuki Nakata³, Takuya Niikawa², Taiga Shinozaki⁴, Hitomi Yanaka¹
¹The University of Tokyo, ²Kobe University, ³Ritsumeikan University, Kobe University, ⁴Keio University

German General Social Survey Personas: A Survey-Derived Persona Prompt Collection for Population-Aligned LLM Studies
Jens Rupprecht¹, Leon Froehling², Claudia Wagner², Markus Strohmaier¹
¹University of Mannheim, ²GESIS Leibniz Institute for the Social Sciences

Slovene Morphological and Word Formation Segmentation: A Novel Dataset and Evaluation
Marko Pranjic¹, Boris Kern², Ines Voric³, Senja Pollak⁴
¹Institut "Joef Stefan", ²ZRC SAZU Fran Ramov Institute of the Slovenian Language; University of Nova Gorica, ³University of Maribor, ⁴Joef Stefan Institute

GePaDeU - a Multi-layer Corpus of German Parliamentary Debates with Rich Semantic and Pragmatic Annotations
Ines Rehbein¹, Julian Schlenker¹, Lars Ostertag², Simone Paolo Ponzetto¹
¹University of Mannheim, ²Mannheim University

15:20 - 17:00

Session P2.1.3: Corpora and Treebanks III - Poster Area

What Are LLMs Doing to Scientific Communication? Measuring Changes in Writing Practices and Reading Experience
Filip Miletic and Neele Falk
University of Stuttgart

GeneFRDebate: Generated French Debates from News Articles with Industrial-Expert Summaries
Rim Abrougui, Guillaume Lechien, Elisabeth Savatier, Benoît Laurent
Aday

AmbiCoRefVis: A Tool for Visualizing Coreferential Ambiguity
Patrick Paetzold¹, Lukas Beiske¹, Mark-Matthias Zymla¹, Massimo Poesio², Miriam Butt¹, Daniel Weiskopf³, Oliver Deussen¹
¹University of Konstanz, ²Queen Mary University of London and University of Utrecht, ³University of Stuttgart

Fables-DTR: A Corpus of Fables Annotated for Discourse and Temporal Relations
Purificação Silvano¹, António Leal², Maciej Ogrodniczuk³, Aleksandra Tomaszewska³, Joana Gomes⁴, Luís Cunha⁵, Evelin Amorim⁶, Martyna Lewandowska³, Anna Sliwicka³, Alípio Jorge⁷
¹University of Porto/ CLUP/ INESC TEC, ²University of Porto/ Centre of Linguistics of the University of Porto, ³Institute of Computer Science, Polish Academy of Sciences, ⁴University of Porto, ⁵University of Minho, ⁶Porto University, ⁷University of Porto/ INESC TEC

A Benchmark Corpus for the Diagnostic Assessment of Content in L2 English Speech
Kosuke Doi¹, Justin Vasselli², Taro Watanabe²
¹Seikei University, ²Nara Institute of Science and Technology

Insights from Romanized Manipuri Social Media Text: A Transliteration Corpus and Variation Analysis
Maisang Salice, Sanasam Ranbir Singh, Priyankoo Sarmah
Indian Institute of Technology Guwahati

MELD: Melding Diverse Multilingual and Multi-Domain Datasets for Named Entity Recognition Evaluation
Kevin Glocker and Marco Kuhlmann
Linköping University

FinER-ABSA: A Benchmark for Implicit and Explicit Entity Recognition and Aspect-Based Sentiment Analysis in Financial News
Pachara Akkanwanich¹, Pavorn Thongyoo¹, Mahannop Thabua¹, Konlakorn Wongpatikaseree¹, Natthawut Kertkeidkachorn²
¹Mahidol University, ²Japan Advanced Institute of Science and Technology

MUSIA: Multilingual Story Illustration Corpus for Cross-Cultural Alignment and Generation
Krishna Tewari¹, Supriya Chanda², Nirmit Patil¹, Sukomal Pal¹
¹Indian Institute of Technology (BHU) Varanasi, ²Bennett University, Greater Noida

MUDiC: A Dataset for Multi-User Dialogue and Collaboration in Chatbot Interaction
Nicolas Wagner¹, Cristina Luna Jimenez², Elisabeth Andre³, Wolfgang Minker⁴, Stefan Ultes¹
¹University of Bamberg, ²Chair for Human-Centered Artificial Intelligence - Uni Augsburg, ³Universität Augsburg, ⁴Ulm University

StoryCCDial: Collecting and Analyzing Human-Human Co-Creation Dialogues for Personalized Creative Support
Natsumi Ezure and Michimasa Inaba
The University of Electro-Communications

DATASHI: A Parallel EnglishTashlhiyt Corpus for Orthography Normalization and Low-Resource Language Processing.
Nasser-Eddine Monir¹ and Zakaria Baou²
¹Université de Lorraine, CNRS, Inria, Loria, ²Clermont Auvergne INP - Isima, Université Clermont Auvergne

15:20 - 17:00

Session P2.2: Discourse and Pragmatics I - Poster Area

Evaluating Social Intelligence in LLMs via Japanese Honorifics in Email Generation: A Social Semiotic System Perspective
Muxuan Liu¹, Tatsuya Ishigaki², Yusuke Miyao³, Hiroya Takamura⁴, Ichiro Kobayashi¹
¹Ochanomizu University, ²National Institute of Advanced Industrial Science and Technology (AIST), ³University of Tokyo, ⁴The National Institute of Advanced Industrial Science and Technology (AIST)

Do Language Models Know Theo Has a Wife? Investigating the Proviso Problem
Tara Azin¹, Daniel Dumitrescu², Diana Inkpen², Raj Singh¹
¹Carleton University, ²University of Ottawa

Cross-Lingual and Cross-Cultural Transfer of Talk Move Classification to German Science Classrooms
Christian Wartena¹, Christian Schumburg², Andreas Nehring², Marcel Ebert³, Friederike Korneck³, David Schmitt⁴, Marie Irmer⁴, Birgit Neuhaus⁴
¹Hochschule Hannover - University of Applied Sciences and Arts, ²Leibniz Universität Hannover, ³Goethe Universität Frankfurt, ⁴Ludwig-Maximilians-Universität München

IHPP: A Paragraph-Level Dataset for Investigating the Pragmatics of Hyperpartisan Italian News
Michele Maggini¹, Davide Bassi², Angelo Valente³, Gaël Dias⁴, Pablo Gamallo⁵
¹Centro Singular de Investigación en Tecnoloxías Intelixentes da USC, ²Citius - Universidade de Santiago de Compostela, ³University of Padova, ⁴Normandie Univ, UNICAEN, ENSICAEN, CNRS, GREYC, ⁵CITIUS, University of Santiago de Compostela

Detecting Potentially Under-annotated Explicit Discourse Connectives in the Penn Discourse Treebank (PDTB-3) with LLMs
Yueh-Ting Chuang¹, Xixian Liao², Bonnie Webber³
¹School of Philosophy, Psychology and Language Science, University of Edinburg, ²Barcelona Supercomputing Center, ³University of Edinburgh

Can LLMs Understand Punchlines? LLMs' Narrative Understanding Evaluation with Short-shorts
Jiashi Cheng and Takehito Utsuro
University of Tsukuba

Building the AURIS Corpus of Reference and Information Structure
Christian Chiarcos, Christian Fäth, Tabea Gröger, Quentin Frey
University of Augsburg

There Is No Spoon: Existential Presupposition in Large Language Models
Marie-Léontine Wörgötter¹, Shikai Lai², Sebastian Schuster¹
¹University of Vienna, ²University College London

DiscoRAG: A Discourse-Aware Agent for Query-Based Summarization of Long Documents
Alexander Chernyavskiy¹, Lidiia Ostyakova², Dmitry Ilvovsky³
¹National Research University Higher School of Economics, ²HSE University, DeepPavlov, ³HSE University

15:20 - 17:00

Session P2.3.1: Interpretability, Explainability II - Poster Area

In-Distribution Steering: Balancing Control and Coherence in Language Model Generation
Arthur Vogels¹, Benjamin Wong¹, Yann Choho¹, Annabelle Blangero¹, Milan Bhan²
¹Ekimetrics, ²Sorbonne University, LIP6, LFI

Improving Multilingual Language Models by Aligning Representations through Steering
Omar Mahmoud¹, Buddhika Semage², Thommen Karimpanal³, Santu Rana⁴
¹deakin university, ²independent, ³School of Information Technology, Deakin University, ⁴Applied Artificial Intelligence Institute/Applied Artificial Intelligence Initiative

Explainable AI for Ethical Counter Speech Generation in Hate Speech Mitigation
Ashiful Islam Ridoy, Mohammed Faisal, Yogesh Kumar, Md Mamun-Ur Rashid, Marina Ernst, Frank Hopfgartner
University of Koblenz

Do Language Models Encode Semantic Relations? Probing and Sparse Feature Analysis
Andor Diera¹ and Ansgar Scherp²
¹Ulm University, ²University of Ulm

The Sufficiency-Conciseness Trade-off in LLM Self-Explanation from an Information Bottleneck Perspective
Ali Zahedzadeh and Behnam Bahrak
Tehran Institute for Advanced Studies (TeIAS)

Node-Level Uncertainty Estimation in LLM-Generated SQL
Hilaf Hasson¹ and Ruocheng Guo²
¹Cohesity, ²Intuit

A Typologically Grounded Evaluation Framework for Word Order and Morphology Sensitivity in Multilingual Masked LMs
Anna Feldman, Libby Barak, JIng Peng
Montclair State University

From Generation to Evaluation: A Resource for Error-Categorized Question Generation from Video Transcripts
Joshua Berger¹, Markos Stamatakis², Anett Hoppe³, Ralph Ewerth³, Christian Wartena⁴
¹Hochschule Hannover, ²TIB Leibniz Information Centre for Science and Technology, ³TIB Leibniz Information Centre for Science and Technology, L3S Research Center Leibniz University Hannover, University of Marburg and hessian.AI Hessian Center for Artifical Intelligence, ⁴Hochschule Hannover - University of Applied Sciences and Arts

From Behavior to Geometry: A Causal and Geometric Analysis of LoRA-Based Domain Adaptation
Yizhe WANG, Liu He, Zhenhua Ling
University of Science and Technology of China

Explainable Semantic Textual Similarity via Dissimilar Span Detection
Diego Miguel Lozano¹, Daryna Dementieva¹, Alexander Fraser²
¹Technical University of Munich, ²Ludwig-Maximilians-Universität München

BIS Reasoning 1.0: The First Large-Scale Japanese Benchmark for Belief-Inconsistent Syllogistic Reasoning
Ha Thanh Nguyen¹, Hideyuki Tachibana¹, Chaoran Liu¹, Qianying Liu¹, Su Myat Noe², Koichi Takeda¹, Sadao Kurohashi³
¹National Institute of Informatics, ²Research and Development Center for Large Language Models,National Institute of Informatics, ³Kyoto University

A Discourse-based Tool Series for Logical Validation of LLMs
Boris Galitsky¹ and Dmitry Ilvovsky²
¹Moscow Institute of Physics and Technology, ²HSE University

15:20 - 17:00

Session P2.3.1: Interpretability, Explainability III - Poster Area

Voice, Bias, and Coreference: An Interpretability Study of Gender in Speech Translation
Lina Conti¹, Dennis Fucci¹, Marco Gaido², Matteo Negri³, Guillaume Wisniewski⁴, Luisa Bentivogli³
¹Fondazione Bruno Kessler and University of Trento, ²Fondazione Bruno Kessler, University of Trento, ³Fondazione Bruno Kessler, ⁴Universite Paris Cite and LLF

MUCH: A Multilingual Claim Hallucination Benchmark
Jérémie Dentan¹, Alexi Canesse², Davide Buscaldi¹, Aymen Shabou³, Sonia Vanier¹
¹École Polytechnique, ²Ecole polytechnique, ³Crédit Agricole SA

AgriChain: Visually-Grounded Expert-Verified Reasoning for Interpretable Agricultural VisionLanguage Models
Hazza Mahmood, Yongqiang Yu, Rao Anwer
Mohamed bin Zayed University of Artificial Intelligence

SyntaxGym for French: Resource, Annotation, and Evaluation of French and Multilingual LLMs
Tatiana Bladier¹, Henri-José Deulofeu¹, Alexis Nasr²
¹Aix-Marseille University, ²Aix Marseille University

Investigating How LLMs Propagate Female Stereotypes: Comparing What Models Say via Prompts with What They Represent in Their Embeddings
Andrea Valderrey Nuñez and Jelke Bloem
University of Amsterdam

Modeling the Human Lexicon under Temperature Variations: Linguistic Factors, Diversity and Typicality in LLM Word Associations
Maria A. Rodriguez¹, Marie Candito², Richard Huyghe¹
¹University of Fribourg, ²LLF, Université Paris Cité

Object Realisation in Spoken Guadeloupan French: Evaluating NLP Models for an Under-Resourced Variety
Amalia Canes Nápoles and Sophie Repp
Universität zu Köln

Reason2Decide: Rationale-Driven Multi-Task Learning
H M QUAMRAN HASAN¹, Housam Khalifa Bashier², Jiayi Dai¹, Mi-Young Kim¹, Randy Goebel¹
¹University of Alberta, ²Alberta Machine Intelligence Institute, Department of Computing Science,University of Alberta

Ragability Benchmark: A Dataset and Library to Test LLMs on Inter-context Conflicts
Stephanie Gross, Johann Petrak, Brigitte Krenn
Austrian Research Institute for Artificial Intelligence

Evaluating the Adaptability of Large Language Models to Linguistic Variation
Ziyan Xu¹, Marina Seghier², Alice Millour³, Carlos-Emiliano Gonzalez-Gallardo⁴, Jean-Yves Antoine⁵
¹LIFAT Université de Tours, LIASD Université Paris 8, Université de Lorraine, ²Université Paris 8 Vincennes Saint-Denis (LIASD), ³Université Paris 8 Vincennes Saint-Denis, ⁴LIFAT, Universite de Tours, ⁵Tours U., LIFAT Lab

Probing Discrete Speech Tokens of Spoken Language Models
Sven Naber, Julia Koch, Pranav Singh, Alberto Saponaro, Ioanna Karagianni, Ngoc Thang Vu
University of Stuttgart

When Consistency Becomes Bias: Interviewer Effects in Semi-Structured Clinical Interviews
Hasindri Watawana¹, Sergio Burdisso², Diego Moreno-Galvan³, Fernando Sanchez-Vega⁴, Adrian Pastor Lopez Monroy⁵, Petr Motlicek⁶, Esau Villatoro-Tello⁶
¹Idiap Research Institute, EPFL, ²Idiap, ³CIMAT Centro de Investigacion en Matematicas, ⁴Center for Mathematical Research (CIMAT), ⁵Mathematics Research Center CIMAT, ⁶Idiap Research Institute

17:00 - 17:20

Coffee Break

17:20 - 19:00

Session O9: Corpora, Treebanks and Annotation; Tools, Systems and Platforms - Room 1

17:20 - 17:40

Constructing a Japanese Claim Decomposition Dataset for Fact-Checking of LLM-Generated Texts
Miwa Masano¹, Ribeka Keyaki², Atsushi Keyaki¹, Rei Minamoto³, Kaito Horio³, Hirokazu Kiyomaru⁴, Kouta Nakayama⁴, Hideyuki Tachibana⁴, Daisuke Kawahara³
¹Hitotsubashi University, ²Tokyo University of Technology, ³Waseda University, ⁴National Institute of Informatics

17:40 - 18:00

Using LLMs for Automatic Discipline Annotation in a Diachronic Corpus of English Scientific Papers
Sergei Bagdasarov¹, Diego Alves¹, Stefan Fischer², Elke Teich²
¹Saarland University, ²Universität des Saarlandes

18:00 - 18:20

COCOA: Creation and Exploratory Investigation of a COrpus of Claims frOm NLP Articles
Clémentine Bleuze¹, Fanny Ducel², Maxime Amblard³, Karen Fort⁴
¹LORIA, University of Lorraine, ²LISN, Université Paris-Saclay, ³Université de Lorraine, ⁴Sorbonne Universite and LORIA

18:20 - 18:40

SPOT: An Annotated French Corpus and Benchmark for Detecting Critical Interventions in Online Conversations
Manon Berriche¹, Célia Nouri², Chloé Clavel³, jean-philippe cointet⁴
¹Sciences Po, médialab, ²Inria, Sciences Po, ³INRIA, ⁴Sciences Po médialab

18:40 - 19:00

MedPT: A Massive Medical Question Answering Dataset for Brazilian-Portuguese Speakers
Fernanda Farber¹, Iago Brito², Julia Dollis³, Pedro Schindler Freire Brasil Ribeiro⁴, Rafael Sousa⁵, Arlindo Galvão Filho⁶
¹AKCIT, ²Ceia NLP - UFG, ³CEIA - NLP, ⁴UFG, ⁵AKCIT / UFMT, ⁶Federal University of Goiás

17:20 - 19:00

Session O10: Information Extraction and Text Mining II - Room 2

17:20 - 17:40

Large Language Models for Citation Function Classification
Daniel Vodicka¹, Pavel Kral², Christophe Cerisara³, Jakub míd⁴
¹University of West Bohemia, ²University of West Bohemia, Dept. of Computer Science and Engineering, ³Universite de Lorraine, CNRS, LORIA, ⁴University of West Bohemia, Faculty of Applied Sciences

17:40 - 18:00

Small LLMs for Medical NLP: A Systematic Analysis of Few-Shot, Constraint Decoding, Fine-Tuning and Continual Pre-Training in Italian
Pietro Ferrazzi¹, Mattia Franzin², Alberto Lavelli², Bernardo Magnini²
¹University of Padova, ²fbk

18:00 - 18:20

Analysing Lightweight Large Language Models for Biomedical Named Entity Recognition on Diverse Ouput Formats
Pierre Epron¹, Adrien Coulet², Mehwish Alam³
¹INRIA Paris; Telecom Paris, ²Inria, ³Telecom Paris, Institut Polytechnique de Paris

18:20 - 18:40

WISTERIA: Weak Implicit Signal-based Temporal Relation Extraction with Attention
Duy Dao DO, Anaïs Halftermeyer, Thi Bich Hanh DAO
LIFO - University of Orléans

18:40 - 19:00

Dynamic Model Switching to Mitigate Outdated Knowledge in Large Language Models
Ramakrishna Pinninti¹, Sabyasachi Kamila², Ayan Mazumder³, Mohammed Hasanuzzaman⁴
¹Munster Technological University, ²Manipal Institute of Technology, ³IBM, North Carolina, USA, ⁴ADAPT Centre, Computer Science Department, Munster Technological University

17:20 - 19:00

Session O11: Language Modeling and LRs II - Room 3

17:20 - 17:40

Multi-Scale Model Compression via Nested Matrix Learning
Xiangjue Dong¹, Aditya Anantharaman², Hemant Pugaliya², Kai Zhong²
¹Texas A&M University, ²Amazon

17:40 - 18:00

Confabulations from ACL Publications (CAP): A Dataset for Scientific Hallucination Detection
Federica Gamba¹, Aman Sinha², Timothee Mickus³, Raul Vazquez³, Patanjali Bhamidipati⁴, Claudio Savelli⁵, Ahana Chattopadhyay², Laura Zanella⁶, Yash Kankanampati⁷, Binesh Remesh², Aryan Chandramania⁸, Rohit Agarwal⁹, Chuyuan Li¹⁰, Ioana Buhnila¹¹, Radhika Mamidi¹²
¹Charles University, ²University of Lorraine, ³University of Helsinki, ⁴International Institute of Information Technology Hyderabad, ⁵Politecnico di Torino, ⁶LORIA (Universite de Lorraine, CNRS, Inria), ⁷Information Sciences Institute, University of Southern California, ⁸International Institute of Information Technology, Hyderabad, ⁹UiT The Arcitic University of Norway, ¹⁰The University of British Columbia, ¹¹Center for Data Science in Humanities, Chosun University, ¹²Language Technologies Research Centre, IIIT Hyderabad

18:00 - 18:20

MedInjection-FR: Exploring the Role of Native, Synthetic, and Translated Data in Biomedical Instruction Tuning
Ikram Belmadani¹, Oumaima El Khettari², pacome constant dit beaufils³, Benoit Favre⁴, Richard Dufour⁵
¹Aix-Marseille University, ²Nantes Université - LS2N, ³Nantes university hospital, ⁴Aix-Marseille University LIS/CNRS, ⁵LS2N - Nantes University

18:20 - 18:40

The Impact of Tokenization Algorithms on Hungarian Language Model Performance
Mátyás Osváth, Máté Norbert Molnár, Roland Gunics, Noémi Ligeti-Nagy
ELTE Research Centre for Linguistics

18:40 - 19:00

FAME: Fictional Actors for Multilingual Erasure
Claudio Savelli¹, Moreno La Quatra², Alkis Koudounas¹, Flavio Giobergia¹
¹Politecnico di Torino, ²Kore University of Enna

17:20 - 19:00

Session O12: Applications Involving LRs and Evaluation I - Room 4

17:20 - 17:40

Detecting Risky Behavior Related to Alcohol and Drug Use within Adolescents' Private Messenger Conversations
Jaromír Plhák¹, Michaela Lebedíková², Ondrej Sotolar¹, David Smahel³
¹Faculty of Informatics, Masaryk University, ²IRTIS - Interdisciplinary Research Team of Internet and Society, Faculty of Social Science, Masaryk University, ³Masaryk University

17:40 - 18:00

Voices and Echoes in Fictional Dialogue: A Study of Linguistic Coordination in Literary Texts
Ioana-Roxana Boriceanu, Alina Iacob, Liviu Dinu
University of Bucharest

18:00 - 18:20

Bridging the Domain Divide: Supervised vs. Zero-Shot Clinical Section Segmentation from MIMIC-III to Obstetrics
Baris Karacan, Barbara Di Eugenio, Patrick Thornton
University of Illinois Chicago

18:20 - 18:40

Reading Dynamics and Comprehension in Cognitive Aging: A Multimodal Language Resource
Claudia Marzi¹, Noemi Boni², Alice Todesco¹, Andrea Nadalini¹, Giorgia Albertin³, Cristina Dolciotti⁴, Paolo Bongioanni⁴, Marcello Ferro¹, Fabio Tamburini³, Gloria Gagliardi³, Vito Pirrelli⁵
¹Institute for Computational Linguistics - CNR, ²University of Pisa, ³University of Bologna, ⁴Azienda Ospedaliero-Universitaria Pisana, ⁵Institue for Computational Linguistics - CNR

18:40 - 19:00

Evaluating Style Embeddings for Machine-Generated Text Detection
Noé Durandard¹, Saurabh Dhawan², Thierry Poibeau³
¹ENS - PSL, ²Technische Universität München, Munich School of Politics & Public Policy, ³LATTICE (CNRS & ENS/PSL)

17:20 - 19:00

Session P3.1.1: Dialogue, Conversational Systems I - Poster Area

The Speech-LLM Takes It All: A Truly Fully End-to-End Spoken Dialogue State Tracking Approach
Nizar El Ghazal, Antoine Caubrière, Valentin Vielzeuf
Orange Research

Off the Hamster Wheel: Rethinking Dialogue Research through a Meta-Analysis of the ACL Anthology 2024
Amandine Decker¹, Maxime Amblard², Ellen Breitholtz³
¹Universite de Lorraine, ²Université de Lorraine, ³University of Gothenburg

VDAct 2.0: Scaling Video-Grounded Dialogue for Event-driven Activity Understanding with LLM-Assisted Filtering
Wiradee Imrattanatrai¹, Masaki Asada¹, Kimihiro Hasegawa², Ken Fukuda³, Teruko Mitamura²
¹National Institute of Advanced Industrial Science and Technology, ²Carnegie Mellon University, ³AIRC/AIST

Multi-dimensional Evaluation of Character-Authentic Dialogue Models Learned from Question-Answer Data
Atsushi Otsuka¹, Kazuya Matsuo², Kenta Hama², Masahiro Mizukami³, Tsunehiro Arimoto³, Hiroaki Sugiyama⁴, Makoto Nakatsuji², Narichika Nomoto²
¹NTT Corporation, ²NTT, ³NTT Communication Science Laboratories, ⁴NTT Communication Science Labs.

Empathy in Greek Exam-Related Support Conversations: A Comparative Evaluation of LLM Responses
Panagiota Kyriazi¹ and Prokopis Prokopidis²
¹Institute of Language and Speech Processing, Athena RC, ²ILSP/Athena RC

Evaluation of Two Leading Polish Language Models in a Real-world RAG Scenario
Szymon Bartanowicz and Krzysztof Jassem
Adam Mickiewicz University

A Mental State Extraction Dataset for Theory-of-Mind-based Reasoning in Emotional Support Conversations
Seulgi Kim and Harksoo Kim
Konkuk University

Construction and Analysis of Japanese Parent-Child Dialogic Reading Corpus for Conversational Agents
Yuko Nakagi¹, Yuya Chiba¹, Sanae Fujita², Shoko Araki¹
¹NTT Communication Science Laboratories, ²NTT

ACLBot: A Knowledge Graph-Driven Assistant for ACL Anthology Research
Jan Buchmann¹, Steven Lynden², Kristiina Jokinen³
¹UKP Lab, Technical University of Darmstadt, ²AIST, ³AIRC, AIST and University of Helsinki

This House Debates AI: Evaluating a Language Model in Oxford-Style Debates against Human Experts
Umberto Belluzzo¹, Kobi Hackenburg², Hannah Kirk², Scott Hale³, Paul Röttger²
¹Oxford Internet Institute - University of Oxford, ²University of Oxford, ³Oxford Internet Institute, University of Oxford, and Meedan

PAIR: A Pilot Dataset for Dual Perspective-based Video-Grounded Dialogue and Reconciliation
Lewis Watson, Carl Strathearn, Kenny Mitchell, Yanchao Yu
Edinburgh Napier University

I Am Not Them: Persistent Outgroup Bias in Large Language Models Arising from Social Identity Persona Setting
Wenchao Dong¹, Assem Zhunis², Dongyoung Jeong³, Hyojin Chin⁴, Jiyoung Han³, Meeyoung Cha¹
¹Max Planck Institute for Security and Privacy, ²Hong Kong University of Science and Technology, ³Korea Advanced Institute of Science and Technology, ⁴Gyeongsang National University

CONVERSE: Annotation Scheme and Dataset for Multimodal Conversational Engagement Analysis in Human-Human and Human-Robot Interaction
Ekaterina Torubarova¹, Oskar Ljung², Julia Uddén³, André Pereira¹
¹Division of Speech, Music and Hearing, KTH Royal Institute of Technology, ²Department of Linguistics, Stockholm University, ³Department of Psychology, Department of Linguistics, Stockholm University

FineDialFact: A Benchmark for Fine-Grained Dialogue Fact Verification
Xiangyan Chen, Yufeng Li, Yujian Gan, Arkaitz Zubiaga, Matthew Purver
Queen Mary University of London

17:20 - 19:00

Session P3.1.2: Dialogue, Conversational Systems II - Poster Area

Meta-Prompting Follow-Ups for Unsupervised Dialogue Evaluation Using Open-Source Large Language Models
Gaetano Cimino¹, Chuyuan Li², Giuseppe Carenini³, Vincenzo Deufemia¹
¹University of Salerno, ²The University of British Columbia, ³university of british columbia

HumaniCA: A Benchmark Resource for the Detection of Users' Ascription of Humanness to Conversational Agents
Sabrina Villata¹, Amon Rapp², Luigi Di Caro¹, Federica Cena¹
¹University of Turin, ²University of Torino

Towards Reliable Evaluation of Emotional Text Generation in LLMs: Human vs. Automatic Metrics
sadegh jafari¹, Els Lefever², Veronique Hoste²
¹PhD student at UGent, ²LT3, Ghent University

Question and Response Dynamics in Public Service Encounters
Wassiliki Siskou¹, Ingrid Espinoza², Laurin Friedrich³, Steffen Eckhard⁴, Annette Hautli-Janisz¹
¹University of Passau, ²Universty of Konstanz, ³University of Konstanz, ⁴Zeppelin Universität Friedrichshafen

Reasoning over Object Descriptions Improves Coreference Resolution in Task-Based Dialogue Systems
Oier Ijurco¹ and Oier Lopez de Lacalle²
¹University of the Basque Country UPV/EHU, ²University of the Basque Country

Evaluating the Effect of Question Wording Variations on Answer Consistency in Large Language Models
Junya Takayama¹, Masaya Ohagi², Tomoya Mizumoto¹, Katsumasa Yoshikawa³
¹SB Intuitions, ²SB Intuitions Corp., ³Dai-ichi Life Holdings, Inc.

Knowledge-Infused Hierarchy-Aware Emotion Recognition in Code-mixed Mental Health Counseling Conversations
Aseem Srivastava¹, Kushagra Mittal², Anusha Tiwari³, Md. Shad Akhtar⁴
¹MBZUAI, ²IIITD, ³IIIT Delhi, ⁴Indraprastha Institute of Information Technology, Delhi

A Corpus for Personalized Dialogue Breakdown Repair in Japanese Open-Domain Conversations
Kazuya Tsubokura¹, Yurie Iribe¹, Norihide Kitaoka²
¹Aichi Prefectural University, ²Toyohashi University of Technology

Conversational Assistants to Support Patients with Heart Failure: \\ Comparing a Neurosymbolic Architecture with GPT
Anuja Tayal, Devika Salunke, Barbara Di Eugenio, Paula Allen-Meares, Eulalia Abril, Olga Garcia-Bedoya, Carolyn Dickens, Andrew Boyd
University Of Illinois Chicago

Disentangling Approaches to Conversation Disentanglement: Fine-Tune or Learn from Scratch?
Debaditya Pal¹, Anton Leuski², Ron Artstein³, David Traum⁴, Kallirroi Georgila⁴
¹University of Southern California, ²USC/ICT, ³USC Institute for Creative Technologies, ⁴University of Southern California Institute for Creative Technologies

Evaluation of Failure Communication Strategies for Trust Repair in Human-AI Collaboration
Stina Klein¹, Alexandru Wurm¹, Elisabeth Andre², Matthias Kraus³
¹University of Augsburg, ²Universität Augsburg, ³Augsburg University

Multi-Session Client-Centered Treatment Outcome Evaluation in Psychotherapy
Hongbin Na¹, Tao Shen¹, Shumao Yu², Ling Chen¹
¹University of Technology Sydney, ²KU Leuven

Towards Reward Modeling for AI Tutors in Math Mistake Remediation
Kseniia Petukhova and Ekaterina Kochmar
MBZUAI

HOTATE: A Japanese Dialogue Corpus Annotated with Responses of Private Thoughts and Public Statements
Yuko Toda¹, Daisuke Maekawa¹, Kota Manabe¹, Eito Yoneyama¹, Kanade Nonomura¹, Yuki Fujiwara¹, Tomoyuki Kajiwara²
¹Ehime University, ²Ehime University / The University of Osaka

17:20 - 19:00

Session P3.2.1: Less-Resourced/Studied Languages I - Poster Area

Mining Naturally Romanized Seed Corpora without Romanizations
Adrian Benton¹, Alexander Gutkin¹, Christo Kirov¹, Brian Roark²
¹Google, ²Google Inc.

From Press to Pixels: Evolving Urdu Text Recognition
Samee Arif¹ and Sualeha Farid²
¹University of Michigan, ²University of Michigan - Ann Arbor

HalleluBERT: Let Every Token That Has Meaning Bear Its Weight
Raphael Scheible-Schmitt
School of Computation, Information and Technology, Technical University of Munich

Sentiment Analysis and Language Models for Kwanyama
Ndapa Nakashole
University of California, San Diego

TigerCoder: A Novel Suite of LLMs for Code Generation in Bangla
Nishat Raihan, Antonios Anastasopoulos, Marcos Zampieri
George Mason University

ViX-Ray: A Vietnamese Chest X-Ray Dataset for Vision-Language Models
Duy Nguyen¹, Chinh Truong², Tr?n Phúc³, Hung Le⁴, Nguyen Dat⁵, Trung Hieu Pham³, Kiet Nguyen⁶
¹Industrial University of HoChiMinh City; Military Hospital 175, ²Military Hospital 175, ³Pythera AI, ⁴University of Information Technology, HCM VNU, ⁵University of Information Technology, ⁶University of Information Technology, VNU-HCM

Creating Task-Specific Speech Recognition Datasets from Scratch for Low-Resource Languages: Assessing the Impact of Token Sequence Overlap
Adwoa Bremang, Dennis Asamoah Owusu, Victor Quagraine, Leanne Annor-Adjaye
Ashesi University

Radio Haiti-Inter: A Large-Scale Annotated Corpus of Spoken Haitian Creole
William Havard¹, Rayan Ziane², Mélissa Menclé³, Maximin Coavoux⁴, Benjamin Lecouteux⁵, Emmanuel Schang³
¹Laboratoire Ligérien de Linguistique, Université d'Orléans, ²Laboratoire Ligérien de Linguistique, ³Université d'Orléans, ⁴CNRS, Univ Grenoble Alpes, ⁵LIG/GETALP

Synthetic Function Demonstrations Improve Generation in Low-Resource Programming Languages
Nick McKenna¹, Xinnuo Xu², Jack Williams², Nicholas Wilson³, Benjamin Van Durme⁴, Christian Poelitz²
¹GitHub Applied Science, ²Microsoft Research, ³Microsoft, ⁴Johns Hopkins University / Microsoft

PerHalluEval: Persian Hallucination Evaluation Benchmark for Large Language Models
Mohammad Hosseini¹, Kimia Hosseini¹, Shayan Bali², Zahra Zanjani¹, Saeedeh Momtazi¹
¹Amirkabir University of Technology, ²King's College London

ADAB: Arabic Dataset for Automated Politeness Benchmarking - a Large-Scale Resource for Computational Sociopragmatics
Hend Al-Khalifa¹, Nadia Ghezaiel², Maria Bounnit³, Hend Alhazmi⁴, Noof Alfear¹, Reem Alqifari¹, Ameera Almasoud⁵, Sharefah Al-Ghamdi¹
¹King Saud University, ²College of computer Science and software Engineering, ³Cadi Ayyad University, ⁴Saudi Center Of Philosophy and Ethics, ⁵KSU

GRDD+: An Extended Greek Dialectal Dataset with Cross-Architecture Fine-tuning Evaluation
Stergios Chatzikyriakidis¹, Dimitri?s Papadakis¹, Sevasti Papaioannou², Erofili Psaltaki³
¹University of Crete, ²National and Kapodistrian University of Athens, ³University of Turku

Same-Language Subtitles for Low-resource Languages: A Case of Bundelkhandi
Anirudh Pradhan¹, Ayushi Pandey¹, Divyansh Kushwaha¹, Akshita Tiwary¹, Vivek Seshadri²
¹Karya, ²Microsoft Research India / Karya Inc

Chulalongkorn Corpus of Spoken Thai
Pittayawat Pittayaporn¹, Cathryn Yang², Sujinat Jitwiriyanont¹, James Kirby³
¹Center of Excellence in Southeast Asian Linguistics, Chulalongkorn University, ²Payap University and SIL Global, ³Ludwig Maximilian University of Munich

Nepal Script Text Recognition from Ancient Artifacts: Challenges and Opportunities
Swornim Nakarmi¹, Sarin Sthapit¹, Sahil Tuladhar¹, Arya Shakya¹, Bal Krishna Bal², Rajani Chulyadyo²
¹Kathmandu University, ²Department of Computer Science and Engineering, Kathmandu University, Nepal

LuxBorrow: From Pompier to Pompjee, Tracing Borrowing in Luxembourgish
Nina Hosseini-Kivanani¹ and Fred Philippy²
¹RTL & University of Luxembourg, ²University of Luxembourg

Ramsa: A Large Sociolinguistically Rich Emirati Arabic Speech Corpus for ASR and TTS
Rania Al-Sabbagh
University of Sharjah

17:20 - 19:00

Session P3.2.2: Less-Resourced/Studied Languages II - Poster Area

ForumOccitania: A Corpus of User-Generated Content for Multiple Occitan Varieties
Oriane Nédey¹, juliette janes¹, Rachel Bawden¹, Thibault Clérice², Benoît Sagot¹
¹Inria, ²ALMAnaCH, Inria

A Dataset of Wolof Ajami Manuscripts for HTR and OCR
Oreen Yousuf¹, Elhadji Djibril Diagne², Christian Høgel³, Beata Megyesi⁴, Joakim Nivre¹
¹Uppsala University, ²Murid Islamic Community in America, Inc. (MICA, Inc.), ³Lund University, ⁴Department of Linguistics, Stockholm University

TDMulti: A Tunisian Dialect-Modern Standard Arabic Multitask Corpus with a Context-Aware Cross-Attention BERT Model
Roua Torjmen¹ and Kais HADDAR²
¹Faculty of Sciences of Sfax, ²University of Sfax

The Megrelian Language Corpus (MLC): Creation, Annotation, and Initial Steps toward a UD Treebank
Irina Lobzhanidze¹, Rusudan Gersamia¹, Tamar Gogia²
¹Ilia State University, ²Pompeu Fabra University

Steering LLMs toward Korean Local Speech: Iterative Refinement Framework for Faithful Dialect Translation
keunhyeung park, Seunguk Yu, Youngbin Kim
Chung-Ang University

LombardoGraphia: Automatic Classification of Lombard Orthography Variants
Edoardo Signoroni and Pavel Rychly
NLP Centre, Faculty of Informatics, Masaryk University

Meenz bleibt Meenz, but Large Language Models Do Not Speak the Dialect of Mainz
Minh Duc Bui¹, Manuel Mager², Peter Kann³, Katharina von der Wense⁴
¹University of Mainz, ²Amazon AWS, ³Philipp's University Marburg, ⁴University of Colorado Boulder

Bootstrapping NLP for Sakha: Named Entity Recognition and Sentiment Analysis in an Extremely Low-Resource Setting
Mariia Everstova, Nikolai Efimov, Valerio Basile
University of Turin

Lightweight Cross-Lingual Federated Prompt Tuning for Low-Resource Languages
Ubaid Azam¹, Imran Razzak², Shoaib Jameel¹
¹University of Southampton, ²UNSW

A Parallel Corpus of the Parable of the Prodigal Son: Building a Resource for Documenting Language Varieties in Metropolitan France
Lucence Ing¹, juliette janes¹, Sven Ködel², Benoît Sagot¹
¹Inria, ²Institut historique allemand

Developing Zila: A Spoken Language Resource for the Endangered Slovenian Gail Valley Dialect
Andrej Zgank¹, Gregor Donaj¹, Urh Kolaric¹, Usi Sereinig², Tatjana Koren-Zwitter³, Sanja Boto³, Sabina Zwitter-Grilc⁴, Jasna Vidinic¹, Darinka Verdonik¹
¹University of Maribor, ²Slovenian Ethnographic Institute Urban Jarnik, ³Mohorjeva Hermagoras, ⁴ORF Kärnten

Nawatl Context-Free Grammars for Natural Language Processing
Juan Jose Guzman Landa¹, Juan-Manuel Torres-Moreno², Graham Ranger³, Miguel Figueroa-Saavedra⁴, Ligia Quintana Torres⁴, Carlos-Emiliano Gonzalez-Gallardo⁵, Luis Moreno Jimenez⁶, Martha Lorena Avendaño Garrido⁴
¹Universite Avignon, ²LIA Avignon, ³Univeristé d'Avignon, ⁴Universidad Veracruzana, ⁵LIFAT, Universite de Tours, ⁶Sorbonne Université

Physical Commonsense Reasoning for Lower-Resourced Languages and Dialects: A Study on Basque
Jaione Bengoetxea¹, Itziar Gonzalez-Dios², Rodrigo Agerri³
¹HiTZ Center - Ixa, University of the Basque Country UPV/EHU, ²HiTZ Basque Center for Language Technologies - Ixa, University of the Basque Country UPV/EHU, ³HiTZ Center - Ixa, University of the Basque Country EHU

Common Voice for Pakistan: Developing an Open Speech Corpus for Low-Resource Pakistani Languages
Meesum Alam¹ and Francis Tyers²
¹Indiana University Bloominton, ²Indiana University

Amulwe Kimün: A Community-Grounded Demo, Resource, and ASR Baseline for Mapuzugun
Cristian Ahumada Oliva¹ and Fatiha Sadat²
¹Université du Québec À Montreal, ²UQAM

Development of Serbian QA Datasets through Prompt-Based Generation and Human Validation
Jovana Radenovic¹, Olivera Kitanovic², Ranka Stankovic³, Mihailo koric⁴
¹Faculty of Mining and Geology, University of Belgrade, ²researcher, ³University of Belgrade - Faculty of Mining and Geology, ⁴University of Belgrade Faculty of Mining and Geology

An Enhanced Pipeline for the Manzini-Savoia Corpus
Achille Fusco¹, Greta Mazzaggio², Carlo Zoli³
¹University of Florence, ²Université de Neuchâtel, ³Free University of Bozen-Bolzano

17:20 - 19:00

Session P3.2.3: Less-Resourced/Studied Languages III - Poster Area

Are Language Models Borrowing-Blind? A Multilingual Evaluation of Loanword Identification across 10 Languages
Merilin Sousa Silva and Sina Ahmadi
University of Zurich

Comparing Approaches to Automatic Summarization in Less-Resourced Languages
Chester Palen-Michel¹ and Constantine Lignos²
¹Ebay, ²Brandeis University

PsihoRo: Depression and Anxiety Romanian Text Corpus
Alexandra Ciobotaru¹, Ana-Maria Bucur², Liviu Dinu¹
¹University of Bucharest, ²Università della Svizzera italiana

Aligned Parallel Corpus of the Vedic Sa?hitas for Machine Translation
Yuzuki Tsukagoshi and Ikki Ohmukai
The University of Tokyo

FormosanMT: A Multilingual Parallel Corpus of the Formosan Language Family
Hunter Scheppat¹, Joshua K. Hartshorne², Sema Koc¹, Éric Le Ferrand¹, Emily Prud'hommeaux¹
¹Boston College, ²MGH Institute of Health Profession

The Construction of a Mixe Variant Parallel Corpus
Ivan Vladimir Meza Ruiz¹, Delfino Zacarias Marquez², Martha Elba Ramírez Andrés³, Victoriano Santiago Cayetano³, Jonathan Santiago Antonio³, Carlos Daniel Hernández Mena⁴
¹Insituto de Investigaciones en Matemáticas Aplicadas y en Sistemas, Universidad Nacional Autónoma de México, ²INEGI, ³UNTI México, ⁴BSC

Nepali Lemmatization with Multilingual Transformers: Intrinsic and Extrinsic Evaluation in a Low-Resource Setting
Sunil Regmi¹, Sundeep Dawadi¹, Bal Krishna Bal²
¹Kathmandu University, ²Department of Computer Science and Engineering, Kathmandu University, Nepal

Diacritic Restoration for Low-Resource Indigenous Languages: Case Study with Bribri and Cook Islands Maori
Rolando Coto-Solano¹, Daisy Li¹, Manoela Teleginski Ferraz¹, Olivia Sasse¹, Cha Krupka¹, Sharid Loáiciga², Sally Akevai Nicholas³
¹Dartmouth College, ²University of Gothenburg, ³University of Auckland

A Modern Online Learning Platform for ?Olelo Hawai?i Classrooms
Christian Castro¹, Keneth Martin², Winston Wu³, William Wilson²
¹University of Hawai'i Hilo, ²University of Hawaii at Hilo, ³University of Hawaii

Glossed Data in Northern Interior Salish
Anna Stacey
University of British Columbia

CEFR-Cymraeg: A Dataset and Baseline Models for Language Proficiency Assessment in Welsh
Eeshan Waqar, Jonathan Davies, Dawn Knight, Fernando Alva-Manchego
Cardiff University

Singlish to English Translation with Precision: A Dataset and Language Detection-Driven Masked Modeling for Singlish to English Translation
Sujit Kumar¹, Gerome Ang², Stephanie Hilary Xinyi Ma³, Andy Hau Yan Ho³, Andy Khong³
¹Postdoctoral Research Fellow, Nanyang Technological University Singapore, ²Lee Kong Chian School of Medicine, Nanyang Technological University, ³Nanyang Technological University

LLMs in Ottoman Turkish: From MLM to NER
Enes Yilandiloglu
University of Helsinki

SloPal: A 60-Million-Word Slovak Parliamentary Corpus with Aligned Speech and Fine-Tuned ASR Models
Erik Boík¹ and Marek Suppa²
¹VUB, ²Comenius University in Bratislava

SlovKE: A Large-Scale Dataset and LLM Evaluation for Slovak Keyphrase Extraction
Dávid tevanák¹ and Marek Suppa²
¹University of Vienna, ²Comenius University in Bratislava

Automatic Speech Recognition for Documenting Endangered Languages: Case Study of Ikema Miyakoan
Chihiro Taguchi¹, Yukinori Takubo², David Chiang¹
¹University of Notre Dame, ²NINJAL

Adaptive Method for Self-Supervised Learning Models on Automatic Dialect Speech Recognition Based on Shared Knowledge of Japanese Dialects and Standard Japanese
Naoru Asakawa¹, Naoki Takahashi¹, Atsuhiko Kai¹, Seiichi Nakagawa²
¹Kai Lab, Shizuoka University, ²Shizuoka University

19:00 - 20:00

ELRA General Meeting - Room 1

20:00

LREC 2026 Welcome Reception

End of Day 1

Conference Programme – Day 1