Conference Programme - Day 3

Document sans nom

Day 3

Friday, 15 May, 2026

09:00 - 10:40

Session O29: Infrastructures, Policy and Legal Issues II - Room 1

09:00 - 09:20

Mitigating Misinterpretation in Policy Documents through Automated Language Understanding
Momojit Biswas, Anka Chandrahas Tummepalli, Preethu Rose Anish
TCS Research

09:20 - 09:40

Sovereign AI-based Public Services Are Viable and Affordable
António Branco¹, Luis Gomes², Rodrigo Santos¹, Eduardo Santos¹, João Ricardo Silva¹, Nuno Marques¹, Madalena Rodrigues¹
¹University of Lisbon, ²Faculdade de Ciencias da Universidade de Lisboa

09:40 - 10:00

A Typology of Synthetic Datasets for Dialogue Processing in Clinical Contexts
Steven Bedrick¹, A. Seza Dogruoz², Sergiu Nisioi³
¹Oregon Health & Science University, ²Universiteit Gent, ³Human Language Technologies Research Center, University of Bucharest

10:00 - 10:20

Text+: A National Hub Including Legacy Language Data
Florian Barth¹, Christoph Draxler², Jennifer Ecker³, Stefan Fischer⁴, Philippe Genêt⁵, Alina Hemmer⁶, Timm Lehmberg⁷, Thorsten Trippel⁸, Andreas Witt³, Arden Zimmermann⁵, Claus Zinn⁹
¹University of Göttingen, ²Institute of Phonetics and Speech Processing, LMU Munich, ³Leibniz Institute for the German Language, ⁴Universität des Saarlandes, ⁵Deutsche Nationalbibliothek, ⁶University of Hamburg, ⁷Academy of Science and Humanities in Hamburg, ⁸Leibniz-Institut für Deutsche Sprache, ⁹University of Tübingen

10:20 - 10:40

Can NLP Tackle Hate Speech in the Real World? Stakeholder-Informed Feedback and Survey on Counterspeech
Tanvi Dinkar¹, Aiqi Jiang¹, Simona Frenda², Poppy Gerrard-Abbott³, Nancie Gunson², Gavin Abercrombie¹, Ioannis Konstas²
¹Heriot Watt University, ²Heriot-Watt University, ³University of Edinburgh/Heriot-Watt University

09:00 - 10:40

Session O30: Opinion and Argument Mining, Sentiment Analysis - Room 2

09:00 - 09:20

Towards Complex Debate Understanding: Predicting Claim Impact Scores through the Modelling of Claim Interactions
Maxime Brouat¹, Mihai Surdeanu², Srdjan Vesic¹, Eduardo Blanco²
¹CRIL CNRS Univ. Artois, ²University of Arizona

09:20 - 09:40

Is There Anything More Deceptive than an Obvious Fact? Investigating Implicitness in User-Generated Argumentative Text
Ekaterina Sviridova¹, Elena Cabrio², Serena Villata³
¹Université Côte d'Azur, ²Université Côte d'Azur, Inria, CNRS, I3S, ³Université Côte d'Azur, CNRS, Inria, I3S

09:40 - 10:00

Best-Worst Scaling of Hype in Biomedical Research: Building an Intensity Lexicon of Promotional Adjectives
Neil Millar¹, Dipesh Satav¹, Bojan Batalo², Erica K. Shimomoto³, Ryosuke Ohniwa¹
¹University of Tsukuba, ²AIST, ³National Institute of Advanced Industrial Science and Technology

10:00 - 10:20

Trust Me, I Can Convince You: The Contextualized Argument Appraisal Framework and the ContArgA Corpus
Lynn Greschner, Sabine Weber, Roman Klinger
University of Bamberg

10:20 - 10:40

Towards Clinical Applications of NLP: Detecting Emotion Regulation via Emotional Categories and Expression Modes in French Transcriptions
Salome Klein¹, Amalia Todirascu², Hélène Vassiliadou³
¹UR 1339/LiLPa & FRLC (University of Strasbourg), ²LiLPa, University of Strasbourg, ³University of Strasbourg

09:00 - 10:40

Session O31: Bias, Offensive and Non-inclusive Language - Room 3

09:00 - 09:20

R.U.Psycho? A Framework for Robust Unified Psychometric Testing of Language Models
Julian Schelb¹, Orr Borin², David Garcia¹, Andreas Spitz¹
¹University of Konstanz, ²Recosys

09:20 - 09:40

Code-switching as a Bias Indicator in LLMs: "the Consequences Are Not the Same Para Nosotros"
Fanny Ducel¹, Aurélie Névéol², Vidit Khazanchi³, Loïc Leclere⁴, Arthur Pedrini⁴, Léa Bouchet⁵, Benjamin Caissial⁵, Karen Fort⁶
¹LISN, Université Paris-Saclay, ²Université Paris Saclay, CNRS, LISN, ³LORIA, ⁴Université de Lorraine, LORIA, ⁵Université de Lorraine, ⁶Sorbonne Universite and LORIA

09:40 - 10:00

Exploration of How Hate Is Framed on Social Media
Rakshitha Rao Ailneni and Sanda Harabagiu
University of Texas at Dallas

10:00 - 10:20

Are Social Biases in LLMs Consistent across Generative Tasks? A Case Study for Basque
Muitze Zulaika¹, Xabier Saralegi¹, Julia Shershneva², Lia Gonzalez², Arkaitz Fullaondo²
¹Orai NLP Technologies, ²University of the Basque Country (EHU)

10:20 - 10:40

Fine-grained Narrative Classification in Biased News Articles
Zeba Afroz¹, Harsh Vardhan¹, pawan bhakuni², Aanchal Punia³, Rajdeep Kumar⁴, Md. Shad Akhtar¹
¹Indraprastha Institute of Information Technology, Delhi, ²Bharat Electronics Ghaziabad, ³Bharat Electronics, ⁴Bharat Electronics limited

09:00 - 10:40

Session O32: Speech Resources, Processing, Applications - Room 4

09:00 - 09:20

A Shoal of Voices: Parallel Read Speech from Professional Swedish Narrators
Christina Tånnander¹, Jim O'Regan², Jens Edlund³
¹KTH Speech, Music and Hearing, MTM, ²KTH Royal Institute of Technology, ³KTH Speech, Music and Hearing

09:20 - 09:40

Deep Learning-Based Multi-Aspect Pronunciation Assessment for Individuals with Down Syndrome
David Fernández-García, César González-Ferreras, Valentín Cardeñoso-Payo, Mario Corrales-Astorgano
Universidad de Valladolid

09:40 - 10:00

WikIPA: Integrating WikiPron and Lingua Libre for Multilingual IPA Transcription
Pierluigi Cassotti¹, Jacob Suchardt², Domenico De Cristofaro³
¹University of Gothenburg, ²Leipzig University, ³Free University of Bozen

10:00 - 10:20

How Pragmatics Shape Articulation: A Computational Case Study in STEM ASL Discourse
Saki Imai¹, Lee Kezar², Laurel Aichler³, Mert Inan¹, Erin Walker⁴, Alicia Wooten³, Lorna Quandt³, Malihe Alikhani¹
¹Northeastern University, ²University of Southern California, ³Gallaudet University, ⁴University of Pittsburgh

10:20 - 10:40

Setting the Stage for Disfluency: Implications of Contextual Task Framing Effects for the Design of Listening Tasks
Ambika Kirkland¹ and Jens Edlund²
¹KTH Royal Institute of Technology, ²KTH Speech, Music and Hearing

09:00 - 10:40

Session P8.1.1: Machine Translation I - Poster Area

ACAData: Parallel Dataset of Academic Data for Machine Translation
Iñaki Lacunza¹, Javier Garcia Gilabert², Francesca De Luca Fornaciari³, Javier Aula-Blasco¹, Aitor Gonzalez-Agirre⁴, Maite Melero¹, Marta Villegas¹
¹Barcelona Supercomputing Center, ²Barcelona Super Computing Center, ³BSC Barcelona Supercomputing Center, ⁴Barcelona Supercomputing Center (BSC)

A Single Model Ensemble Framework for Neural Machine Translation Using Pivot Translation
Seokjin Oh¹, Keonwoong Noh², Woohwan Jung³
¹SK Siltron, ²Korea University, ³Hanyang University

Gender Disambiguation in Machine Translation: Diagnostic Evaluation in Decoder-Only Architectures
Chiara Manna, Hosein Mohebbi, Afra Alishahi, Frederic Blain, Eva Vanmassenhove
Tilburg University

Building a One-Million-Pair BokmålNynorsk Translation Corpus: A Quality-First Harvesting and Cleaning Pipeline
Per Kummervold¹, Thea Tollersrud², Angelina Zanardi²
¹The National Library of Norway, ²National Library of Norway

New Trends for Modern Machine Translation with Large Reasoning Models
Sinuo Liu¹, Chenyang Lyu², Minghao Wu³, Zifu Shang², Longyue Wang⁴, Weihua Luo², Kaifu Zhang²
¹University of Edinburgh, ²Alibaba Group, ³Monash University, ⁴Tencent AI Lab

MaitH 1.0: A Parallel Corpus and Baseline for Low-Resource Maithili-Hindi Translation
Kamanksha Dubey¹, Chandresh Maurya², Kumar Padmanabh³
¹INDIAN INSTITUTE OF TECHNOLOGY, ²IIT Indore, ³EBTIC (Etisalat British Telecom Innovation Center, Khalifa University)

NRD: A Hybrid Disentanglement Framework for Mitigating Interference in Multilingual Machine Translation
Jiarui Zhang¹ and Yifan Deng²
¹Institute of Information Engineering, ²University of Chinese Academy of Sciences

Linguistic and Demographic Factors in Online Free Translation Task
Tyler Lee, Irina Stenger, Tania Avgustinova
Saarland University

Biases in Translation: Assessing Opinion Distortion in Machine Translated Texts
Nazanin Shafiabadi¹ and François Yvon²
¹Sorbonne University and ISIR, ²ISIR CNRS & Sorbonne Université

When Translations Surprise: Human Awareness of Predictability in Translations
Cristian García-Romero¹, Miquel Esplà-Gomis², Felipe Sanchez-Martinez²
¹University of Alicante, ²Universitat d'Alacant

Bidirectional Chinese and English Passive Sentences Dataset for Machine Translation
Xinyue Ma¹, Pol Pastells², Mireia Farrus¹, Mariona Taule²
¹Universitat de Barcelona, ²University of Barcelona

CoTERM: A Consistency-Oriented Term Metric for MT System Evaluation
Amir Hazem¹ and Kyo Kageura²
¹RCAST, The University of Tokyo, ²University of Tokyo

SiniticMTError: A Machine Translation Dataset with Error Annotations for Sinitic Languages
Hannah Liu¹, Junghyun Min², Annie Lee¹, Ethan Yue Heng Cheung¹, Shou-Yi Hung¹, Elsie Chan¹, Shiyao Qian¹, RUNTONG LIANG¹, Kimlan Huynh¹, Wing Yu Yip¹, York Hay Ng¹, Tsz Fung Yau³, Ka Ieng Charlotte Lo¹, You-Wei Wu⁴, Richard Tzong-Han Tsai⁵
¹University of Toronto, ²Georgetown University, ³Scotiabank, ⁴National Central University, ⁵Academia Sinica

Ancient Greek to Modern Greek Machine Translation: A Novel Benchmark and Fine-Tuning Experiments on LLMs and NMT Models
Spyridon Mavromatis¹, Sokratis Sofianopoulos², Prokopis Prokopidis³, Maria Giagkou³
¹Institute for Speech and Language Processing, Athena Research Center & National and Kapodistrian University of Athens, ²Researcher, ³ILSP/Athena RC

09:00 - 10:40

Session P8.1.2: Machine Translation II - Poster Area

Linguistic Knowledge-Infused Fine-Tuning for Mitigating Gender Bias in Machine Translation
Luis Ernesto Garcia Estrada¹, Audrey Mash², Carlos Escolano³, Maite Melero², Christine Basta⁴
¹Universidad Politecnica de Catalunya, ²BSC, ³Universitat Politècnica de Catalunya, Barcelona Supercomputing Center, ⁴Alexandria University

What Triggers My Model? Contrastive Explanations Inform Gender Choices by Translation Models
Janiça Hackenbuchner
Ghent University

ViKhoMT: A VietnameseK'Ho Neural Machine Translation Dataset and Evaluation for Community Health Communication
Tram Truong¹, Vinh Nguyen², Dang Thin¹, Ngan Nguyen³
¹University of Information Technology,Vietnam National University Ho Chi Minh city, ²None, ³University of Information Technology, Vietnam National University Hochiminh City

Hindsight Quality Prediction Experiments in Multi-Candidate Human-Post-Edited Machine Translation
Malik Marmonier, Benoît Sagot, Rachel Bawden
Inria

PETra: A Multilingual Corpus of Pragmatic Explicitation in Translation
Doreen Osmelak¹, Koel Dutta Chowdhury², Uliana Sentsova¹, Cristina España-Bonet³, Josef van Genabith⁴
¹Saarland University, ²Saarland Informatics Campus,Saarland University, ³BSC/DFKI GmbH, ⁴DFKI

A Dataset for Probing Translationese Preferences in English-to-Swedish Translation
Jenny Kunz¹, Anja Jarochenko², Marcel Bollmann²
¹Linkoping University, ²Linköping University

STAR-IL: A Dataset for Style-Aware Machine Translation of Product Reviews in Indian Languages
Ketaki Shetye¹, Dipti Sharma², Parameswari Krishnamurthy³
¹International Institute of Information Technology, ²IIIT, Hyderabad, ³Assistant Professor, IIIT Hyderabad

Cultural and Knowledge Biases in LLMs through the Lens of Entity-Aware Machine Translation
Lu Xu, Luca Moroni, Roberto Navigli
Sapienza University of Rome

Referenceless Evaluation of Machine Translation Models by Ranking Performance in Romanian to English Translate-train Settings
Mihail Feraru, Alexandra Diaconu, Bogdan Alexe
University of Bucharest

Every Word Presented in Context: Syntactic Coverage as Objective for Low-Resource Machine Translation with Large Language Models
Samuel Frontull and Thomas Ströhle
University of Innsbruck

Multilingual KokoroChat: A Multi-LLM Ensemble Translation Method for Creating a Multilingual Counseling Dialogue Dataset
Ryoma Suzuki, Zhiyang Qi, Michimasa Inaba
The University of Electro-Communications

NepTam: A Nepali-Tamang Parallel Corpus and Baseline Machine Translation Experiments
Rupak Raj Ghimire¹, Bipesh Subedi², Balaram Prasain³, Prakash Poudyal¹, Praveen Acharya⁴, Nischal Karki¹, Rupak Tiwari¹, Rishikesh Sharma¹, Jenny Poudel¹, Bal Krishna Bal⁵
¹Kathmandu University, ²Department of Computer Science and Engineering, Kathmandu University, ³Central Department of Linguistics, Tribhuvan University, ⁴Dublin City University, ⁵Department of Computer Science and Engineering, Kathmandu University, Nepal

Scoring the Translation: On Target Automatic Keyword-Based Evaluation of Machine Translation in the Sports Domain
Steinthor Steingrimsson¹ and Einar Sigurdsson²
¹The Arni Magnusson Institute for Icelandic Studies, ²University of Pennsylvania

Towards Improving Multimodal Machine Translation with LLMs: A Focus on Indic Languages
Amulya Ratna Dash¹, Chirag Wadhwa², Yashvardhan Sharma³
¹Birla Institute of Technology & Science, Pilani, ²Birla Institute of Technology and Science, Pilani, Pilani campus, ³Birla Institute of Technology and Science

09:00 - 10:40

Session P8.2: Multilinguality and Translation Aids - Poster Area

Parallel Sentence Filtering for Low-Resource Language Pairs: A Case Study for Upper Sorbian, German, and Czech
Ruiyang Jiang¹, Shu Okabe², Alexander Fraser³
¹Technical University of Munich, ²TUM Heilbronn, ³Ludwig-Maximilians-Universität München

OpenSubtitles2024: A Massively Parallel Dataset of Movie Subtitles for MT Development and Evaluation
Joerg Tiedemann and Hengyu Luo
University of Helsinki

CREST: Universal Safety Guardrails through Cluster-Guided Cross-Lingual Transfer
Lavish Bansal and Naman Mishra
Repello AI

Semantic Alignment across Ancient Egyptian Language Stages via Normalization-Aware Multitask Learning
He Huang
Ludwig Maximilian University of Munich

Conditioning LLMs to Generate Code-Switched Text
Maite Heredia¹, Gorka Labaka², Jeremy Barnes³, Aitor Soroa⁴
¹HiTZ Basque Center for Language Technology - Ixa NLP Group, University of the Basque Country UPV/EHU, ²HiTZ Center - Ixa, University of the Basque Country (UPV/EHU), ³University of the Basque Country EHU/UPV, ⁴HiTZ Center - Ixa, University of the Basque Country UPV/EHU

Are the LLMs Capable of Maintaining at Least the Language Genus?
Sandra Mitrovic¹, David Kletz², Ljiljana Dolamic³, Fabio Rinaldi⁴
¹SUPSI - IDSIA, ²Supsi, IDSIA, ³armasuisse S&T, ⁴IDSIA, Swiss AI Institute

Gender Bias in MT for a Genderless Language: New Benchmarks for Basque
Amaia Murillo¹, Olatz Perez-de-Viñaspre², Naiara Perez³
¹HiTZ Center, University of the Basque Country UPV/EHU, ²HiTZ Center - Ixa, University of the Basque Country UPV/EHU, ³University of the Basque Country

Optimizing Multilingual LLMs via Federated Learning: A Study of Client Language Composition
Aleix Sant¹, Jordi Luque², Carlos Escolano³
¹Telefónica Innovación Digital, ²Telefonica Research, ³Universitat Politècnica de Catalunya, Barcelona Supercomputing Center

Multilingual Target-Stance Extraction
Ethan Mines¹ and Bonnie Dorr²
¹The University of Florida, ²University of Florida

MUNIChus: MUltilingual News Image Captioning Benchmark
Yuji Chen¹, Alistair Plum², Hansi Hettiarachchi¹, Diptesh Kanojia³, Saroj Basnet⁴, Marcos Zampieri⁴, Tharindu Ranasinghe¹
¹Lancaster University, ²University of Luxembourg, ³University of Surrey, ⁴George Mason University

GlossMATE: Multi-Agent Translator Explanations for Glosses
Changbing Yang¹, Patrick Littell², Gabriel Bernier-Colborne³, Yanfei Lu⁴, Mengzhe Geng³
¹University of British Columbia, ²National Research Council of Canada, ³National Research Council Canada, ⁴University of Toronto

Diagnosing Translated Benchmarks: An Automated Quality Assurance Study of the EU20 Benchmark Suite
Klaudia Thellmann, Bernhard Stadler, Michael Färber
TU Dresden

Resource-Lean Lexicon Induction for German Dialects
Robert Litschko¹, Barbara Plank¹, Diego Frassinelli²
¹LMU Munich, ²CIS, LMU Munich

09:00 - 10:40

Session P8.3: Multimodality - Poster Area

FENCE: A Financial and Multimodal Jailbreak Detection Dataset
Mirae Kim, Seonghun Jeong, Youngjun Kwak
Kakaobank

Evaluating Multimodal Large Language Models on Vertically Written Japanese Text
Keito Sasagawa¹, Shuhei Kurita², Daisuke Kawahara¹
¹Waseda University, ²National Institute of Informatics

ProMQA-Assembly: Multimodal Procedural QA Dataset on Assembly
Kimihiro Hasegawa¹, Wiradee Imrattanatrai², Masaki Asada², Susan Holm¹, Yuran Wang¹, Xuanang Zhou³, Ken Fukuda⁴, Teruko Mitamura¹
¹Carnegie Mellon University, ²National Institute of Advanced Industrial Science and Technology, ³CMU, ⁴AIRC/AIST

K-MIND: Korean Multimodal INteraction Data for Dyadic Conversation Analysis
Jae Hee Yang¹, Yuha Shin², Saim Shin¹, Je Woo Kim¹, Jin Yea Jang¹
¹Korea Electronics Technology Institute, ²MaumAI

Do Multimodal LLMs Understand Order? Measuring the Fragility of Multimodal Reasoning under Input Order Perturbations
Sheng-Lun Wei¹, Yu-Ling Liao², Hen-Hsen Huang³, Hsin-Hsi Chen¹
¹National Taiwan University, ²National Taiwan University, Taiwan, ³Institute of Information Science, Academia Sinica

Early Fusion with Contrastive Learning: A Lightweight Alternative for Multi-modal Classification
Felix Wernlein¹, Abhik Jana², Sandipan Sikdar¹
¹Leibniz University Hannover, ²IIT Bhubaneswar

Multimodal Entrainment and Feedback in Online Group Meetings
Patrizia Paggio¹, Manex Agirrezabal¹, Giulia Di Cristina², Bart Jongejan¹, Costanza Navarretta¹
¹University of Copenhagen, ²University of Turin

MMCIG: Multimodal Cover Image Generation for Text-only Documents and Its Dataset Construction via Pseudo-labeling
HYEYEON KIM¹, Sungwoo Han², Jingun Kwon³, Hidetaka Kamigaito⁴, Manabu Okumura⁵
¹Department of Artificial Intelligence, Chungnam National University, ²Chungnam National University, Department of Artificial Intelligence, GILAB, ³Chungnam National University, ⁴Nara Institute of Science and Technology, ⁵Tokyo Institute of Technology

Multimodal Reference by Means of the Pronoun We and Hand Gestures in a Novel Corpus of Parliamentary Opening Debates
Costanza Navarretta
University of Copenhagen

Multimodal Large Language Models for Low-Resource Languages: A Case Study for Basque
Lukas Arana¹, Julen Etxaniz¹, Ander Salaberria¹, Gorka Azkune²
¹HiTZ Center - Ixa, University of the Basque Country UPV/EHU, ²University of Basque Country

Real-Time Generation of Game Video Commentary with Multimodal LLMs: Pause-Aware Decoding Approaches
Anum Afzal¹, Yuki Saito², Hiroya Takamura³, Katsuhito Sudoh⁴, Shinnosuke Takamichi⁵, Graham Neubig⁶, Florian Matthes⁷, Tatsuya Ishigaki⁸
¹Technical University of Munich, ²The University of Tokyo, ³The National Institute of Advanced Industrial Science and Technology (AIST), ⁴Nara Women's University, ⁵Keio University, ⁶Carnegie Mellon University, ⁷Technische Universität München, ⁸National Institute of Advanced Industrial Science and Technology (AIST)

ARB: A Comprehensive Arabic Multimodal Reasoning Benchmark
Sara Ghaboura¹, Shubham Patle¹, Ketan More¹, Wafa Alghallabi¹, Omkar Thawakar¹, Jorma Laaksonen², Hisham Cholakkal¹, Salman Khan¹, Rao Anwer¹
¹Mohamed bin Zayed University of AI, ²Aalto University

Event Chronography in Multi-modal Data: The BME Method for Quantitative Analyses
Anaïs Murat, Maria Koutsombogera, Carl Vogel
Trinity College Dublin

CANVAS: A Multimodal Dataset of Chinese Textbook Images for Bias and Representation Analysis
Haotian Zhu, Kefan Yu, Min Li
University of Washington

MM-Conv: A Multimodal Dataset and Benchmark for Context-Aware Grounding in 3D Dialogue
Anna Deichler¹, Jim O'Regan¹, Fethiye Irmak Dogan¹, Anna Klezovich¹, Lubos Marcinek¹, Iolanda Leite¹, Jonas Beskow²
¹KTH Royal Institute of Technology, ²KTH Speech, music and hearing

Erase Persona, Forget Lore: Benchmarking Multimodal Copyright Unlearning in Large Vision Language Models
June Hyoung Kwon, Jungmin Yun, Youngbin Kim
Chung-Ang University

DREAM: A Multicultural Multimodal Dataset Linking Dialogues and Realistic Image Sequences
Juan Mallo¹, Marcos Estecha-Garitagoitia¹, Ricardo Cordoba², Luis Fernando D'Haro³
¹Universidad Politécnica de Madrid, ²Speech Technology Group. Dept. of Electronic Engineering. Universidad Politecnica de Madrid, ³Speech Technology and Machine Learning Group, E.T.S.I. Telecomunicación, Universidad Politécnica de Madrid

Multimodal Task Interference: A Benchmark and Analysis of History-Target Mismatch in Multimodal LLMs
Masayuki Kawarada¹, Tatsuya Ishigaki², Hiroya Takamura³
¹CyberAgent/National Institute of Advanced Industrial Science and Technology, ²National Institute of Advanced Industrial Science and Technology (AIST), ³The National Institute of Advanced Industrial Science and Technology (AIST)

09:00 - 10:40

Session P8.4: Cross-modality - Poster Area

Can Video LLMs See through Illusions? Benchmark Dataset and Comprehensive Analysis
Souto Ohira¹, Tosho Hirasawa², Mamoru Komachi¹
¹Hitotsubashi University, ²OMRON SINIC X Corporation

To Skip, to Swap or to Not Swap? Identifying Step Transition Types in Instructional Manuals
Hsiu-Yu Yang¹, Michael Roth², Andreas Bulling³, Carina Silberer³
¹Institute for Natural Language Processing, Stuttgart University, ²University of Technology Nuremberg, ³University of Stuttgart

Fruitcakes and Cupcakes Emerging from Noise: The ComposiGen Dataset of Compounds and Their Compositionality
Jule Godbersen¹, Sinan Kurtyigit², Emma Raimundo Schulz³, Tonmoy Rakshit³, Diego Frassinelli⁴, Sabine Schulte im Walde³, Carina Silberer³
¹Saarland University, ²Technical University of Munich, ³University of Stuttgart, ⁴CIS, LMU Munich

Large Language Models' Internal Perception of Symbolic Music
Andrew Shin and Kunitake Kaneko
Keio University

Entity Image and Mixed-Modal Image Retrieval Datasets
Cristian-Ioan Blaga¹, Paul Suganthan G C¹, Sahil Dua¹, Krishna Srinivasan², Enrique Alfonseca², Peter Dornbach¹, Tom Duerig¹, Imed Zitouni², Zhe Dong³
¹Google, ², ³Microsoft

Generating Sign Language Poses from HamNoSys and Natural Language Descriptions
Santiago Máximo¹ and Luis Chiruzzo²
¹Universidad de la República, ²Universidad de la Republica

Evaluating Discriminability of Vision-Language Models
Masayasu Muraoka¹ and Naoaki Okazaki²
¹IBM Research - Tokyo, ²Institute of Science Tokyo

Seeing the Other Side: Diagnostic Tasks for Viewpoint Reasoning in VisionLanguage Models
Makoto Takenaka¹ and Hitomi Yanaka²
¹Mitsubishi Electric, ²the University of Tokyo

Multi-modal, Multi-task, Multi-criteria Automatic Evaluation with Vision Language Models
Masanari Oi¹, Masahiro Kaneko², Naoaki Okazaki¹, Nakamasa Inoue¹
¹Institute of Science Tokyo, ²MBZUAI

Challenges in Image-Caption Association in Portuguese: Evaluating the CLIP Model on the FM30K Dataset
Vitória Colonetti Benedet, Gutavo Lopes Tamiosso, Rafael Oleques Nunes, Dennis Giovani Balreira
UFRGS

A Large-Scale Instruction-Tuning Dataset and Models for Slovenian Vision-Language Tasks
Matej Martinc¹ and Domen Vre²
¹Jozef Stefan Institute, ²Univerza v Ljubljani

A Parallel Cross-Lingual Benchmark for Multimodal Idiomaticity Understanding
Dilara Torunoglu-Selamet¹, Dogukan Arslan¹, Rodrigo Wilkens², Wei He², Doruk Eryigit³, Thomas Pickard⁴, Adriana Pagano⁵, Aline Villavicencio⁶, Gülsen Eryigit¹, Ágnes Abuczki⁷, Aida Cardoso⁸, Alesia Lazarenka⁹, Dina Almassova¹⁰, Amalia Mendes¹¹, Anna Kanellopoulou¹², Antoni Brosa-Rodriguez¹³, Baiba Valkovska¹⁴, Beata Wojtowicz¹⁵, Bolette Pedersen¹⁶, Carlos Manuel Hidalgo-Ternero¹⁷, Chaya Liebeskind¹⁸, Danka Jokic¹⁹, Diego Alves²⁰, Eleni Triantafyllidi¹², Erik Velldal²¹, Fred Philippy²², Giedre Valunaite Oleskeviciene²³, Ieva Rizgeliene²⁴, Inguna Skadina²⁵, Irina Lobzhanidze²⁶, Isabell Haugen²⁷, Jauza Akbar Krito²⁸, Jelena Markovic²⁹, Johanna Monti³⁰, Josue Sauca³¹, Kaja Dobrovoljc³², Kingsley Ugwuanyi³³, Laura Rituma³⁴, Lilja Øvrelid³⁵, Maha Tufail Agro³⁶, Manzura Abjalova³⁷, Maria Chatzigrigoriou³⁸, María del Mar Sánchez Ramos³⁹, Marija Pendevska⁴⁰, Masoumeh Seyyedrezaei⁴¹, Mehrnoush Shamsfard⁴², Momina Ahsan⁴³, Muhammad Ahsan Khan⁴⁴, Nathalie Norman¹⁶, Nilay Erdem Ayyildiz⁴⁵, Nina Hosseini-Kivanani⁴⁶, Noémi Ligeti-Nagy⁴⁷, Numaan Naeem⁴³, Olha Kanishcheva⁴⁸, Olha Yatsyshyna⁴⁹, Daniil Orel⁴³, Petra Giommarelli⁵⁰, Petya Osenova⁵¹, Radovan Garabik⁵², Regina Semou⁵³, Rozane Rebechi⁵⁴, Salsabila Zahirah Pranida⁴³, Samia Touileb²⁷, Sanni Nimb⁵⁵, Sarfraz Ahmad⁴⁴, Sarvinoz Sharipova⁵⁶, Shahar Golan⁵⁷, Shaoxiong Ji⁵⁸, Sopuruchi Aboh⁵⁹, Srdjan Sucur²⁹, Stella Markantonatou⁶⁰, Sussi Olsen⁶¹, Vahide Tajalli⁴², Veronika Lipp⁴⁷, Voula Giouli⁶², Yelda Yesildal Eraydin⁶³, Zahra Saaberi⁶⁴, Zhuohan Xie⁴³
¹Istanbul Technical University, ²University of Exeter, ³Istanbul Technical University NLP Group, ⁴University of Sheffield, ⁵Federal University of Minas Gerais, ⁶University of Exeter, UK, ⁷Károli Gáspár University of the Reformed Church in Hungary, ⁸Centro de Linguística da Universidade Nova de Lisboa, ⁹Tesi srl, ¹⁰Nazarbayev University, ¹¹University of Lisbon - Centre of Linguistics, School of Arts and Humanities, ¹²Aristotle University of Thessaloniki, ¹³Universitat Rovira i Virgili, ¹⁴IMCS, University of Latvia, ¹⁵University of Warsaw, ¹⁶University of Copenhagen, ¹⁷Researcher, ¹⁸Jerusalem College of Technology , Lev Academic Center, ¹⁹University of Belgrade, ²⁰Saarland University, ²¹University of Oslo, ²²University of Luxembourg, ²³Mykolas Romeris University, ²⁴Vilnius university Institute of Data Science and Digital Technologies, ²⁵Tilde/ Institute of Mathematics and Computer Science, University of Latvia, ²⁶Ilia State University, ²⁷University of Bergen, ²⁸Universitas Gadjah Mada, ²⁹University of East Sarajevo, ³⁰"L'Orientale" University of Naples, ³¹Internacional University of Valencia, ³²University of Ljubljana, ³³SOAS University of London, ³⁴Institute of Mathematics and Computer science, University of Latvia, ³⁵Dept of Informatics, University of Oslo, ³⁶Mohamed bin Zayed University of Artificial Intelligence, ³⁷Alisher Navo'i Tashkent State Uzbek Language and Literature, ³⁸National and Kapodistrian University of Athens, ³⁹University of Alcalá, ⁴⁰St. Cyrillus and Methodius University, ⁴¹Istinye University, ⁴²Faculty of Computer Science and Engineering, Shahid Beheshti University, ⁴³MBZUAI, ⁴⁴Mohamed bin Zayed University of Artificial Intelligence (MBZUAI), ⁴⁵Assoc. Prof., ⁴⁶RTL & University of Luxembourg, ⁴⁷ELTE Research Centre for Linguistics, ⁴⁸Heidelberg University, ⁴⁹Ternopil Volodymyr Hnatiuk National Pedagogical University, ⁵⁰University of Pisa, ⁵¹Sofia University "St. Kl. Ohridski" and IICT-BAS, ⁵²L. Stur Institute of Linguistics, Slovak Academy of Sciences, ⁵³NKUA, ⁵⁴Universidade Federal do Rio Grande do Sul, ⁵⁵Society for Danish Language and Literature (DSL), ⁵⁶Samarkand State Institute of Foreign Languages, ⁵⁷Jerusalem College of Technology, ⁵⁸University of Turku and ELLIS Institute Finland, ⁵⁹English and Communication, The Hong Kong Polytechnic University, ⁶⁰ILSP/R.C. "Athena", ⁶¹UCPH, NorS, Centre for Language Technology, ⁶²Aristotle University of Thessaloniki / ILSP, ATHENA RC, ⁶³Dr., ⁶⁴NLP Lab, Shahid Beheshti University, Tehran, Iran

Which Way Does Time Flow? A Psychophysics-Grounded Evaluation for VisionLanguage Models
Shiho Matta¹, Lis Kanashiro Pereira², Peitao Han³, Shigeru Kitazawa³, Fei Cheng¹
¹Kyoto University, ²NICT, ³The University of Osaka

I Came, I Saw, I Explained: Benchmarking Multimodal LLMs on Figurative Meaning in Memes
Shijia Zhou¹, Saif Mohammad², Barbara Plank³, Diego Frassinelli⁴
¹Ludwig Maximilian University of Munich, ²National Research Council Canada, ³LMU Munich, ⁴CIS, LMU Munich

DEJIMA: A Novel Large-scale Japanese Dataset for Image Captioning and Visual Question Answering
Toshiki Katsube¹, Fukuhara Taiga¹, Kenichiro Ando², Yusuke Mukuta¹, Kohei Uehara¹, Tatsuya Harada¹
¹The University of Tokyo, ²RIKEN

CLEVR-3D-DeRef
Mary Martin, Martha Palmer, Maria Pacheco
University of Colorado Boulder

09:00 - 10:40

Session P8.5: Sign Languages - Poster Area

Bridging Text-to-Sign Translation via Codebook-Oriented Pretraining
Ninlawat Phuangchoke and Chantri Polprasert
Asian Institute of Technology (AIT)

A Resource and Evaluation Method for Phonological Continuity in Japanese Sign Language
Jundai Inoue¹, Daisuke Hara², Makoto Miwa²
¹Knowledge and Data Engineering Lab, Toyota Technological Institute at Japan, ²Toyota Technological Institute

Sentiment Analysis of German Sign Language Fairy Tales
Fabrizio Nunnari¹, Siddhant Jain¹, Patrick Gebhard²
¹German Research Center for Artificial Intelligence (DFKI), ²DFKI

A Critical Study of Automatic Evaluation in Sign Language Translation
Shakib Yazdani¹, Yasser HAMIDULLAH², Cristina España-Bonet³, Eleftherios Avramidis⁴, Josef van Genabith²
¹German Research Center for Artificial Intelligence (DFKI), ²DFKI, ³BSC/DFKI GmbH, ⁴Alangu; German Research Center for Artificial Intelligence (DFKI)

How Much Data Is Enough Data? A New Motion Capture Corpus for Probabilistic Sign Language Generation
Anna Klezovich¹, Johanna Mesch², Gustav Eje Henter³, Jonas Beskow⁴
¹Division of Speech, Music and Hearing, KTH, ²Stockholm University, ³KTH Royal Institute of Technology, ⁴KTH Speech, music and hearing

Decomposing Sign Language Movements: A Multi-Band Visualization Method for Articulatory Analysis
Antonio F. G. Sevilla and José María Lahoz-Bengoechea
Universidad Complutense de Madrid

10:40 - 11:00

Coffee Break

11:00 - 12:40

Session O33: Psycholinguistics, Cognitive Linguistics and Linguistic Theories - Room 1

11:00 - 11:20

Implicit Bias in Peer Review: Through the Lens of Language Abstraction
Xulang Zhang, Rui Mao, Erik Cambria
Nanyang Technological University

11:20 - 11:40

The PARLO Dementia Corpus: A German Multi-Center Resource for Alzheimer's Disease
Franziska Braun¹, Christopher Witzl², Florian Hönig³, Elmar Nöth⁴, Tobias Bocklet², Korbinian Riedhammer⁵
¹Technische Hochschule Nürnberg Georg Simon Ohm, ²Technische Hochschule Nürnberg, ³KST Institut GmbH, Bad Emstal, ⁴Friedrich-Alexander-University Erlangen-Nuremberg, ⁵Technische Hochschule Nuernberg Georg Simon Ohm

11:40 - 12:00

Lexical and Discourse Semantics in a Reading-time Corpus of English
Jakub Dotlacil¹, Laia Fortuny¹, Li Kloostra¹, Johan Bos²
¹Utrecht University, ²University of Groningen

12:00 - 12:20

Semantic Capacity in Language Learners and LLMs: A Case Study of Quantifier Scope
Shaohua Fang, Yue Li, Yan Cong
Purdue University

11:00 - 12:40

Session O34: Opinion and Argument Mining - Room 2

11:00 - 11:20

Disambiguation of Emotion Annotations by Contextualizing Events in Plausible Narratives
Johannes Schaefer¹ and Roman Klinger²
¹Fundamentals of Natural Language Processing, ²University of Bamberg

11:20 - 11:40

Identifying Contexts of Distress in College Students' Reddit Posts: A Comparative Study of Classical NLP and Large Language Models
Carine Graff and Nikhil Krishnaswamy
Colorado State University

11:40 - 12:00

TiC-MuFormer: Time-Aware Caption-Integrated Multimodal Transformers for User-Level Mental Health Modeling
Georgios Tsoumplekas, Yannis Spyridis, Vasileios Argyriou
Kingston University

12:00 - 12:20

Improving Neural Argumentative Stance Classification in Controversial Topics with Emotion-Lexicon Features
Mohammad Yeghaneh Abkenar¹, Weixing Wang², Manfred Stede¹, Mark Finlayson³, Davide Picca⁴, Panagiotis Ioannidis⁵
¹University of Potsdam, ²Hasso Plattner Institute, ³FIU, ⁴University of Lausanne, ⁵PI Squared Insights

12:20 - 12:40

Emotion Transcription in Conversation: A Benchmark for Capturing Subtle and Complex Emotional States through Natural Language
Yoshiki Tanaka¹, Ryuichi Uehara¹, Koji Inoue², Michimasa Inaba¹
¹The University of Electro-Communications, ²Kyoto University

11:00 - 12:40

Session O35: Parsing - Room 3

11:00 - 11:20

SETUP: Sentence-level English-To-Uniform Meaning Representation Parser
Emma Markle, Javier Gutierrez Bach, Shira Wein
Amherst College

11:20 - 11:40

This One or That One? A Study on Accessibility via Demonstratives with Multimodal Large Language Models
Yu Wang¹, Emmanuele Chersoni², Chu-Ren Huang³
¹The Hong Kong Polytechnic University, ²Hong Kong Polytechnic University, ³The Hong Kong Polytechnic Universiy

11:40 - 12:00

AMR Parsing beyond English: An Experiment on Bulgarian, French, Hungarian and Ukrainian
Ivaylo Mitov¹, Tadzhat Marharian¹, Zsofia Hauk¹, Samba FALL¹, Maxime Amblard², Bruno Guillaume³
¹Institut des sciences du Digital, Management & Cognition, ²Université de Lorraine, ³LORIA / Inria Nancy Grand-Est

12:00 - 12:20

Semantic Parsing for Evaluating Large Language Models: Separating Linguistic Abilities with YARN
Rémi DE VERGNETTE¹ and Maxime Amblard²
¹Université de Lorraine, CNRS, Inria, LORIA, F-53999 Nancy, France, ²Université de Lorraine

12:20 - 12:40

Two Ojibwe Constraint Grammars: Morphological Disambiguation and Dependency Parsing
Matthias Diederichsen and Christopher Hammerly
University of British Columbia

11:00 - 12:40

Session O36: Multimodality and Speech - Room 4

11:00 - 11:20

Multimodal LLMs Do Not Compose Skills Optimally across Modalities
Paula Ontalvilla¹, Aitor Ormazabal², Gorka Azkune³
¹HiTZ Center - Ixa, University of the Basque Country (UPV/EHU, ²University of the Basque Country, ³University of Basque Country

11:20 - 11:40

Code-Switching in End-to-End Automatic Speech Recognition: A Systematic Literature Review
Maha Tufail Agro¹, Atharva Kulkarni², Karima Kadaoui¹, Zeerak Talat³, Hanan Aldarmaki²
¹Mohamed bin Zayed University of Artificial Intelligence, ²MBZUAI, ³University of Edinburgh

11:40 - 12:00

MUStReason: A Benchmark for Diagnosing Pragmatic Reasoning in VideoLMs for Multimodal Sarcasm Detection.
Anisha Saha¹, Varsha Suresh², Timothy Hospedales³, Vera Demberg²
¹Max Planck Institute for Informatics, Saarland Informatics Campus., ²Saarland University, ³University of Edinburgh

12:00 - 12:20

Human-Centered Multimodal Fusion for Sexism Detection in Memes with Eye-Tracking, Heart Rate, and EEG Signals
Iván Arcos Gabaldón, Paolo Rosso, Elena Gomis Vicent
Universitat Politècnica de València, UPV

12:20 - 12:40

Nos_Brais-GL: A FAIR Galician TTS Corpus for Neural Speech Synthesis
Adina Vladu¹, Antonio Moscoso Sánchez², Carmen Magariños³, María Perez Lago¹, Elisa Fernández Rei¹
¹Instituto da Lingua Galega, Universidade de Santiago de Compostela, ²Instituto da Lingua Galega, Centro Singular en Tecnoloxías Intelixentes, Universidade de Santiago de Compostela, ³Instituto da Lingua Galega, Departamento de Electrónica e Computación, Universidade de Santiago de Compostela

11:00 - 12:40

Session P9.1: Natural Language Generation - Poster Area

DR-CUP: A Dataset on Real-time Commentary in U.S. Presidential Debates
Yu-Yu Chang¹, Huan-Wen Ho¹, Chung-Chi Chen², Ming-Hung Wang³
¹National Chung Chen University, ²National Institute of Advanced Industrial Science and Technology, ³National Chung Cheng University

Russian Generative Spelling, Punctuation and Capitalization Correction
Nikita Martynov¹, Danil Astafurov², Ulyana Isaeva¹, Ivan Maksimov³, Joqsan Azocar⁴, Dmitrii Kosenko⁴, Alena Fenogenova⁵
¹SaluteDevices, ²ITMO University, ³Moscow Institute of Physics and Technology, ⁴MIPT, ⁵SberAI

Using Multimodal and Language-Agnostic Sentence Embeddings for Abstractive Summarization
Chaimae Chellaf El Hammoud¹, Salima Mdhaffar², Yannick Estève³, Stéphane Huet⁴
¹Avignon, ²Avignon university, ³LIA - Avignon Université, ⁴Université d'Avignon

Gradient-Controlled Decoding: A Safety Guardrail for LLMs with Dual-Anchor Steering
Purva Chiniya¹, Kevin Scaria², Sagar Chaturvedi¹
¹Amazon, ²Amazon.com

The Chronicles of RiDiC: Generating Datasets with Controlled Popularity Distribution for Long-form Factuality Evaluation
Pavel Braslavski¹, Dmitrii Iarosh², Nikita Sushko³, Andrey Sakhovskiy⁴, Vasily Konovalov⁵, Elena Tutubalina⁶, Alexander Panchenko⁷
¹HSE University, ²Skolkovo Institute of Science and Technology, Russia, ³Independant Researcher, ⁴Sber AI, Russia; Skoltech, Russia, ⁵Affiliation, ⁶HSE University, Russia and Kazan Federal University, Russia and AIRI, Russia and Insilico Medicine Hong Kong, Hong Kong, ⁷S-NLP

MeteoGalEus: An Iberian Multilingual Weather Dataset in Galician, Euskera, and Spanish
Ainhoa Vivel-Couso¹, Nella Zabrina Pramata², David Robredo³, Aitor Soroa⁴, Jose Maria Alonso-Moral¹
¹University of Santiago de Compostela, ²University of Basque Country, ³Universidade de Santiago de Compostela, ⁴HiTZ Center - Ixa, University of the Basque Country UPV/EHU

RadTimeline: Timeline Summarization for Longitudinal Radiological Lung Findings
Sitong Zhou, Meliha Yetisgen, Mari Ostendorf
University of Washington

InstructSum: A Benchmark to Evaluate Instruction-Following Capability of Large Language Models in Summarization
Kosuke Nishida¹, Kyosuke Nishida², Itsumi Saito³
¹NTT, ²NTT Human Informatics Laboratories, ³Tohoku University

NOVELSUM: Evaluating Long-Form Summary Generation for Historical Scandinavian Novels
Ali Al-Laith, Alexander Conroy, Kirstine Degn, Jens Bjerring-Hansen, Daniel Hershcovich
University of Copenhagen

Evaluating Large Language Models for Text-to-Gloss Translation in Kazakh-Russian Sign Language: A Pilot Study
Zhanibek Kozhirbayev¹ and Alfarabi Imashev²
¹National Laboratory Astana, Nazarbayev University, ²Nazarbayev University

HotelCheckSpan: A Benchmark Dataset for LLM Faithfulness
Patricia Schmidtova¹, Ondrej Dusek¹, Saad Mahamood²
¹Charles University, ²Shopware

11:00 - 12:40

Session P9.2.1: Machine Learning II - Poster Area

Procrustes Analysis for Improving Language Model Merging
Olivier Ferret
CEA List

MetaCORA: A Meta-Learned Curriculum for Adversarial and Contrastive Robustness in Speech Recognition
Yuqian Dai, Chun Fai Chan, Ying Ki Wong, Tsz Ho Pun
Logistics and Supply Chain MultiTech R&D Centre Limited

Insights from Transfer Learning Experiments with Word-in-Context and Word Sense Disambiguation Models
Alp Mujko and Dominik Schlechtweg
University of Stuttgart

Joint Identification and Induction of Semantic Frames with Scalable Semi-Supervised Graph Clustering
Fabian Barteld¹, Steffen Remus², Saba Anwar², Julian Stawecki¹, Alexander Ziem¹, Chris Biemann²
¹Heinrich Heine University Düsseldorf, ²Universität Hamburg

Low-Rank Compression of Language Models via Differentiable Rank Selection
Sidhant Sundrani, Francesco Tudisco, Pasquale Minervini
University of Edinburgh

Self-supervised Data Augmentation for Text Classification in Low-Data Settings
Deyu Ding¹, Mengying Wang², Andreas Spitz²
¹Southern University of Science and Technology, ²University of Konstanz

Distribution-aware Low-bitwidth Quantization for Large Language Models
Bao Huynh, Takashi Tsunakawa, Masafumi Nishida
Shizuoka University

TG-ASR: Translation-Guided Learning with Parallel Gated Cross Attention for Low-Resource Automatic Speech Recognition
ChengYeh Yang¹, Chien-Chun Wang¹, Li-Wei Chen², Hung-Shin Lee², Hsin-Min Wang³, Berlin Chen¹
¹National Taiwan Normal University, ²United Link Co., Ltd., ³Institute of Information Science, Academia Sinica

Harnessing Synergy in Context and Emoji for Joint Detection of Harmful Online Content in Multi-turn Conversations
Feiyan Hu, Ciara Byrne, Jiang Zhou, Rena Maycock, Mark Langan
Chirp

Dynamic Layer Selection for Efficient Tone Recognition in Self-Supervised Speech Models
Saint Germes BENGONO OBIANG, Norbert TSOPZE, Paulin MELATAGIA YONTA
Univertity of Yaounde 1

Intent Recognition in Speech-to-Text Processing in the Context of Natural Interaction with Cognitive Assistive Systems
Behnam Ensan¹, Magnus Jung¹, Matthias Busch¹, Adreas Wendemuth²
¹doctoral candidate, ²Professor for Cognitive Systems, University Magdeburg

Merging Continual Pretraining Models for Domain-Specialized LLMs: A Case Study in Finance
Kentaro Ueda¹, François Portet², Hirohiko Suwa¹, Keiichi Yasumoto¹
¹Nara Institute of Science and Technology, ²Université Grenoble Alpe

Phonetic-based Ranking for Improved Pseudo-Labeling in Low-Resource ASR
Marco Matassoni¹, Roberto Gretter¹, Falavigna Daniele¹, Mohamed Nabih Ali Mohamed Nawar¹, Alessio Brutti¹, Matteo Negri¹, Mauro Cettolo¹, Marco Gaido², Sara Papi¹, Luisa Bentivogli¹
¹Fondazione Bruno Kessler, ²Fondazione Bruno Kessler, University of Trento

Privacy-Preserving Information Extraction with Local LLMs: A Comparative Study on Dutch Debt Collection Letters
Beyza Celep, Natalia Amat-Lefort, Joost Visser
Leiden University

11:00 - 12:40

Session P9.2.2: Machine Learning III - Poster Area

Forewarned Is Forearmed: When Non-Sequential Embedding Turns into an Anomaly Detector
Elys Allesiardo, Antoine Caubrière, Valentin Vielzeuf
Orange Research

A Joint Detection Framework for Latvian Loanwords and Calques Using Monolingual Data
Yelingyun Zhang, Atis Kapenieks, Marina Platonova
Riga Technical University

Pantagruel: Unified Self-Supervised Encoders for French Text and Speech
Phuong-Hang Le¹, Valentin Pelloin², Arnault Chatelain³, Maryem Bouziane⁴, Mohammed Ghennai⁵, Qianwen Guan⁶, Kirill Milintsevich⁷, Salima Mdhaffar⁸, Aidan Mannion⁹, Nils Defauw¹⁰, Shuyue Gu⁶, Alexandre Audibert¹¹, Marco Dinarelli¹², Yannick Estève¹³, Lorraine Goeuriot⁹, Steffen Lalande⁷, Nicolas Hervé², Maximin Coavoux¹⁴, François Portet¹⁵, Étienne Ollion¹⁶, Marie Candito¹⁷, Maxime Peyrard⁵, Solange Rossato¹², Benjamin Lecouteux¹⁸, Aurélie Nardy¹⁹, Gilles Sérasset¹¹, Vincent Segonne²⁰, Solène Evain⁵, Diandra Fabre⁵, Didier Schwab²¹
¹Saclay AI, ²INA, ³CREST (Ecole Polytechnique, ENSAE, CNRS), ⁴Avignon Université, LIA, ⁵Univ. Grenoble Alpes, CNRS, Grenoble INP, LIG, ⁶Université Paris Cité, ⁷Institut national de l'audiovisuel, ⁸Avignon university, ⁹LIG, Université Grenoble Alpes, ¹⁰Univ. Grenoble Alpes, CNRS, Grenoble INP, ¹¹Université Grenoble Alpes, ¹²LIG, ¹³LIA - Avignon Université, ¹⁴CNRS, Univ Grenoble Alpes, ¹⁵Univ Grenoble Alpes, Laboratoire d'Informatique de Grenoble, ¹⁶CNRS-CREST, ¹⁷LLF, Université Paris Cité, ¹⁸LIG/GETALP, ¹⁹Lidilem, ²⁰IRISA - Université Bretagne Sud, ²¹Univ. Grenoble Alpes

Merge and Conquer: Instructing Multilingual Models by Adding Target Language Weights
Eneko Valero¹, Maria Ribalta i Albado¹, Oscar Sainz¹, Naiara Perez², German Rigau³
¹University of the Basque Country (UPV/EHU), ²University of the Basque Country, ³UPV/EHU

SemiAdapt: Semi-Supervised and Efficient LoRA-Based Domain Adaptation for Low-Resource Irish Machine Translation with Transformers
Josh Mcgiff and Nikola Nikolov
University of Limerick

Data Selection Effects on Self-Supervised Learning of Audio Representations for French Audiovisual Broadcasts
Valentin Pelloin¹, Lina Bekkali², Reda Dehak³, David Doukhan⁴
¹INA, ²École nationale des ponts et chaussées (ENPC), ³EPITA, ⁴Institut national de l'audiovisuel (Ina)

SENS-ASR: Semantic Embedding Injection in Neural-transducer for Streaming Automatic Speech Recognition
Youness Dkhissi¹, Valentin Vielzeuf², Elys Allesiardo¹, Anthony Larcher³
¹Orange Innovation, ²Orange Research, ³Université du Mans - LIUM

Efficient Financial Language Understanding via Distillation with Synthetic Data
Wen-Fong (Xavier) Huang and Edwin Simpson
University of bristol

Rubric-Guided Fine-tuning of SpeechLLMs for Multi-Aspect, Multi-Rater L2 Reading-Speech Assessment
Aditya Kamlesh Parikh¹, Cristian Tejedor-García², Catia Cucchiarini³, Helmer Strik⁴
¹Radboud University, ²CLST, Radboud University, ³Radboud University Nijmegen/Nederlandse Taalunie, ⁴Centre for Language and Speech Technology (CLST), Centre for Language Studies (CLS), Radboud University Nijmegen

Leveraging Semi-Supervised Learning for Multimodal Hate Speech Data Annotation and Detection
Rathi Adarshi Rammohan¹, Zhao Ren¹, Dominik Puchala², Aleksandra Swiderska², Dennis Küster¹, Tanja Schultz¹
¹University of Bremen, ²University of Warsaw

Lexicalized Constituency Parsing for Middle Dutch: Low-resource Training and Cross-Domain Generalization
Yiming Liang¹ and Fang Zhao²
¹Universiteit Gent, ²Université Paris Cité & Laboratoire de Linguistic Formelle

Quantifying the Accuracy and Cost Impact of Design Decisions in Budget-Constrained Agentic LLM Search
Kyle McCleary and James Ghawaly
Louisiana State University

Reason-to-Learn (R2L): Multi-Agent Knowledge Distillation for Lightweight LLMs in Sentiment Analysis
Le-Huy Tu¹, Quan Nguyen², Vincent NGUYEN³, Johanna Bjorklund⁴, Xuan-Son Vu⁵
¹DopikAI JSC., ²Umeå University, ³University of Orleans, INSA CVL, LIFO EA, France, ⁴Umea University, ⁵Lund University and DeepTensor AB

PRiSM: Partial Ranking via Inter-layer Semantic Measurement for Efficient Fine-tuning of Language Models
Aldrin Biswas¹, Md Fahim², Md. Amin¹, Amin Ali¹, AKM Rahman¹
¹Center for Computational & Data Sciences, Independent University, Bangladesh, ²Center for Computational & Data Sciences at Independent University, Bangladesh (IUB)

11:00 - 12:40

Session P9.3.1: Language Modeling and LRs III - Poster Area

Beyond Literal Meaning: How LLMs Interpret Yemeni Proverbs
Nasser Thmer¹, Ali Al-Laith², Muhammad Shoaib¹
¹UET LAHORE, ²University of Copenhagen

SEFL: A Framework for Generating Synthetic Educational Assignment Feedback with LLM Agents
Mike Zhang¹, Amalie Dilling², Léon Gondelman², Niels Lyngdorf², Euan Lindsay², Johannes Bjerva³
¹University of Copenhagen, ²Aalborg University, ³Department of Computer Science, Aalborg University

LGSE: Lexically Grounded Subword Embedding Initialization for Low-Resource Language Adaptation
Hailay Kidu Teklehaymanot¹, Dren Fazlija², Wolfgang Nejdl¹
¹L3S Research Center, ²L3S Research Center, Leibniz University Hannover

A Cheap Lunch: Synthetic Annotation with Minimal Human Effort for Medical Text Mining
Shutao Chen and Piek Vossen
Vrije Universiteit Amsterdam

Supervised Contrastive Fine-Tuning for Active Few-Shot Learning
Zirui Zhang, Lei Ge, Shengyu Qiao
Information Engineering University

Simulating Student Interactions for Virtual Pretesting with In-Context Learning
Arthur Thuy¹, Luca Benedetto², Ekaterina Loginova³, Dries Benoit¹
¹Ghent University, ²University of Cambridge, Institut Polytechnique de Paris, ³Dedalus Healthcare

An Exploration-Analysis-Disambiguation Reasoning Framework for Word Sense Disambiguation with Low-Parameter LLMs
Deshan Sumanathilaka, Nicholas Micallef, Julian Hough
Swansea University

Building Effective Japanese Medical LLMs with an Open Recipe for Domain Adaptation through Continued Pre-training
Akiko Aizawa¹, Yuki Arase², Fei Cheng³, Jiahao Huang⁴, Zhiyi Huang², Junfeng Jiang⁴, Teruhito Kanazawa¹, Daisuke Kawahara⁵, Kazuma Kobayashi¹, Takashi Kodama³, Sadao Kurohashi³, Yusuke Oda¹, Yuma Tsuta¹, Zhen Wan³, Zhishen Yang¹, Rio Yokota²
¹National Institute of Informatics, ²Institute of Science Tokyo, ³Kyoto University, ⁴University of Tokyo, ⁵Waseda University

New Encoders for German Trained from Scratch: Comparing ModernGBERT with Converted LLM2Vec Models
Julia Wunderle¹, Anton Ehrmanntraut², Jan Pfister³, Fotis Jannidis², Andreas Hotho⁴
¹University of Wuerzburg, ²Universität Würzburg, ³Julius-Maximilians-Universität Würzburg (JMU), ⁴University of Würzburg

Arabic ChartSumm: An English-to-Arabic Benchmark for Metadata-to-Text Summarization
Passant Elchafei¹ and Amany Fashwan²
¹Ulm University, Germany, ²Phonetics and Linguistics Department, Faculty of Arts, Alexandria University, Alexandria

Introducing a Bangla Sentence Gloss Pair Dataset for Bangla Sign Language Translation and Research
Neelavro Saha, Rafi Shahriyar, Nafis Roudra, Saadman Sakib, Annajiat Rasel
BRAC University

Language Models as Semantic Augmenters for Sequential Recommenders
Mahsa Valizadeh, Xiangjue Dong, Rui Tuo, James Caverlee
Texas A&M University

Efficient Adaptation of English Language Models for Morphologically Rich and Underrepresented Languages: The Case of Arabic
Ahmed Eldamaty¹, Mohamed Abdelrahman², Mohamed Elbehery¹, Mariam Ashraf¹, Radwa Elshawi²
¹Giza Systems, ²University of Tartu

11:00 - 12:40

Session P9.3.2: Language Modeling and LRs IV - Poster Area

GhostWriter: Hidden AI-Generated Texts over Multiple Languages, Domains and Generators
Manuel Schaaf¹, Kevin Bönisch², Alexander Mehler¹
¹Goethe-University Frankfurt am Main, ²Text Technology Lab, Goethe-University

Using LLMs to Extract Instances of Schematic Constructions from Unannotated L2 Learner Corpora
Jelena Kallas¹, Ahto Kiil², Heete Sahkai¹, Geda Paulsen³, Kertu Saul⁴
¹Institute of the Estonian Language, ²University of Tartu, ³Institute of the Estonian Language, Uppsala University, ⁴Institute of the Estonian Language, University of Tartu

Corruption-Based Data Augmentation for Arabic Essay Scoring: A Preliminary Study on the Organization Trait
May Bashendy and Tamer Elsayed
Qatar University

Structured Prompting for Arabic Essay Proficiency: A Trait-Centric Evaluation Approach
Salim Al Mandhari¹, Hieu Pham Dinh², Mo El-Haj², Paul Rayson¹
¹Lancaster University, ²VinUniversity

ManufactuBERT: Efficient Continual Pretraining for Manufacturing
Robin Armingaud and Romaric Besancon
CEA LIST

Smigiel Dataset: Laying Foundations for Investigating Machine-Generated Text Detection in Polish
Jakub Strebeyko¹, Alina Wróblewska², Piotr Przybyla³
¹University of Warsaw, Warsaw, Poland, ²Institute of Computer Science, Polish Academy of Sciences, ³Universitat Pompeu Fabra

Extracting Medical Image-Related Entities from Spanish Electronic Health Records Using NER Methods
Alexander Platas¹, Marcos Merino¹, Elena Zotova¹, Montse Cuadros¹, Karen López-Linares¹, Mikel Pérez de Mendiola², María Gálvez², Cristina Barba², Antón Asla²
¹Vicomtech, ²Serikat

A Novel Synthetic Dataset for Few-Shot Legal Relation Extraction in German
Shiva Banasaz Nouri¹, Elena Leitner², Julian Moreno-Schneider², Georg Rehm²
¹TU Berlin, ²DFKI

LLM-Based Data Generation and Clinical Skills Evaluation for Low-Resource French OSCEs
Tian Huang¹, Tom Bourgeade², Irina Illina³
¹LORIA, University of Lorraine, ²LORIA - INRIA, University of Lorraine, ³LORIA/INRIA

Instruction-Tuned Urdu LLMs: Efficient Adaptation of Llama Models and Evaluation Resources for Urdu
Munief Tahir¹, Sana Shams², Sarmad Hussain³, Miriam Butt⁴
¹Al Khawarizmi Institute of Computer Science, ²Al-Khawarizmi Institute of Computer Science, University of Engineering and Technology, ³Center for Language Engineering, KICS, UET, ⁴University of Konstanz

Is Biomedical Specialization Still Worth It? Insights from Domain-Adaptive Language Modelling with a New French Health Corpus
Aidan Mannion¹, Cécile Macaire¹, Armand Violle², Stéphane Ohayon², Xavier Tannier³, Didier Schwab⁴, Lorraine Goeuriot¹, François Portet⁵
¹LIG, Université Grenoble Alpes, ²LIMICS, Sorbonne Université, INSERM, ³Limics, Sorbonne Université, ⁴Univ. Grenoble Alpes, ⁵Univ Grenoble Alpes, Laboratoire d'Informatique de Grenoble

TildeOpen LLM: Leveraging Curriculum Learning to Achieve Equitable Language Representation
Toms Bergmanis, Ingus Pretkalnin, Martins Kronis, Davis Nicmanis, Jelizaveta Jelinska, Roberts Rozis, Rinalds Viksna, Marcis Pinnis
Tilde

Common Sense vs. Morality: The Curious Case of Narrative Focus Bias in LLMs
Saugata Purkayastha¹, Pranav Kushare¹, Pragya Pal¹, Sukannya Purkayastha²
¹Saarland University, ²TU Darmstadt

11:00 - 12:40

Session P9.3.3: Language Modeling and LRs V - Poster Area

``Emphasizing the Commendable'': A Study of Homogenized Transitive Verb Constructions in Machine Generated Peer Reviews
Hing-Yuet Fung¹, Chi-kiu Lo², Samuel Larkin³
¹Independent Researcher, ²National Research Council of Canada, ³National Research Council Canada

CoDAE: Adapting Large Language Models for Education via Chain-of-Thought Data Augmentation
Shuzhou Yuan¹, Willliam LaCroix², Hardik Ghoshal³, Ercong Nie⁴, Michael Färber³
¹Dresden University of Technology, ²Saarland University, ³TU Dresden, ⁴Centre for Information and Language Processing, LMU Munich

Synthetic Instruction Generation for Low-Resource Nordic Languages: Viability and Limitations in LLM Instruction-Tuning
Mathias Stenlund¹, Annika Simonsen¹, Lars Bungum², Jan Ebert³, Jiangtao Wang³, Oleg Filatov³, Hemanadhan Myneni¹, Morris Riedel¹, Hafsteinn Einarsson¹
¹University of Iceland, ²NTNU, ³Jülich Supercomputing Centre

AYN: A Tiny Yet Competitive Indian Legal Language Model Pretrained from Scratch
Mitodru Niyogi¹, Eric Gaussier², Arnab Bhattacharya³
¹CNRS, ²Univ. Grenoble Alpes, ³Dept. of Computer Science and Engineering, IIT Kanpur

Low-Resource Dialect Adaptation of Large Language Models: A French Dialect Case-Study
Eeham Khan¹, Firas Saidani², Owen Van Esbroeck¹, Richard Khoury², Leila Kosseim¹
¹Concordia University, ²Université de Laval

Reformulate and Create, Don't Translate: Creating Natural Prompts for Underserved Languages
Annika Simonsen¹, Mathias Stenlund², Lars Bungum³, Marc Volhardt², Hafsteinn Einarsson²
¹The University of Iceland, ²University of Iceland, ³Norwegian University of Science and Technology

Generating High Quality Synthetic Data for Dutch Medical Conversations
Cecilia Kuan¹, Aditya Kamlesh Parikh¹, Henk van den Heuvel²
¹Radboud University, ²CLS/CLST, Radboud University Nijmegen

DeepICD-R1: Medical Reasoning through Hierarchical Rewards and Unsupervised Distillation
Tom Röhr¹, Thomas Steffek¹, Roman Teucher², Keno Bressem³, Alexei Figueroa¹, Paul Grundmann¹, Peter Troeger¹, Felix Gers¹, Alexander Löser¹
¹Berliner Hochschule für Technik (BHT), ²Fraunhofer Research Engineer, ³Department of Diagnostic and Interventional Radiology, School of Medicine, University Hospital Rechts der Isar, Technical University of Munich

SynthLLM: An LLM-based Scalable Synthetic Data Generation Pipeline for Low-Resource Languages
Solmaz Panahi¹, Vasudevan Nedumpozhimana², John Kelleher³
¹Maynooth University, ²TU Dublin, ³Trinity Colledge Dublin

Persona-Conditioned Generation of Patient Self-Reports from EHRs
Yuexin Wu¹, jianming wei², Vasile Rus¹
¹UNIVERSITY OF MEMPHIS, ²University Medical Center Utrecht

SocialStep: Fast Prediction of Social Determinants of Health
Paul Landes¹, Adam Cross², Jimeng Sun³
¹University of Illinois at Chicago, ²University of Illinois College of Medicine Peoria, ³University of Illinois Urbana-Champaign

Dynamically Acquiring Text Content to Enable the Classification of Lesser-known Entities for Real-world Tasks
Fahmida Alam and Ellen Riloff
University of Arizona

RILEC: Detection and Generation of L1 Russian Interference Errors in English Learner Texts
Darya Kharlamova¹ and Irina Proskurina²
¹National Research University Higher School of Economics, ²Laboratoire Hubert Curien, UMR CNRS 5516, Saint-Etienne, France, Université Claude Bernard Lyon 1, Université Lumière Lyon 2, ERIC, 69100, Villeurbanne, France

12:40 - 14:10

Lunch Break

14:10 - 14:55

Keynote Speaker: Dan Jurafsky - Room 1

14:55 - 15:00

Short Break (5mn)

15:00 - 16:40

Session O37: Evaluation, Validation, Quality Assurance - Room 1

15:00 - 15:20

Critical Foreign Policy Decision (CFPD) Benchmark: Measuring Diplomatic Preferences of Large Language Models
Benjamin Jensen¹, Ian Reynolds¹, Yasir Atalan¹, Michael Garcia², Austin Woo², Anthony Chen², Trevor Howarth²
¹Center for Strategic and International Studies, ²Scale AI

15:20 - 15:40

CrisisCL: A Domain Incremental Learning Benchmark for Crisis Management
Paul Le Van Kiem¹, Romain Meunier¹, Farah Benamara², Véronique MORICEAU³
¹IRIT, ²University of toulouse, ³IRIT, Université de Toulouse

15:40 - 16:00

Towards Consistent Detection of Cognitive Distortions: LLM-Based Annotation and Dataset-Agnostic Evaluation
Neha Sharma¹, Navneet Agarwal², Kairit Sirts¹
¹University of Tartu, ²EXAI, University of Tartu

16:00 - 16:20

LLMs as Annotators: Evaluating ModelHuman Alignment in Detecting Contentious Language in Historical Corpora
Yahui Zhao¹, Clemencia Siro², Laura Hollink¹
¹Centrum Wiskunde & Informatica (CWI), ²Centrum Wiskunde & Informatica

16:20 - 16:40

Widespread Gender and Pronoun Bias in Moral Judgments across LLMs
Gustavo Fernandes, Jeiverson Santos, Pedro O.S Vaz-de-Melo
UFMG

15:00 - 16:40

Session O38: Knowledge Discovery and Representation - Room 2

15:00 - 15:20

Frame2KG: A Benchmark and Evaluation Toolkit for Interpretable Frame-to-Graph Generation
Lewis Watson, Carl Strathearn, Kenny Mitchell, Yanchao Yu
Edinburgh Napier University

15:20 - 15:40

Injecting Structured Biomedical Knowledge into Language Models:Continual Pretraining vs. GraphRAG
Jaafer Klila¹, Sondes Bannour Souihi², rahma boujelbane³, Nasredine Semmar⁴, Lamia Hadrich-Belguith⁵
¹PhD student, ²CEA, ³FSEGS, ⁴CEA LIST, ⁵ANLP Research Group, MIRACL Lab, FSEGS, Sfax University

15:40 - 16:00

Linguistic Knowledge Graphs for Sense Prediction: A Case-study on Latin
Eleonora Ghizzota¹, Paola Marongiu², Pierpaolo Basile³, Stefano Ferilli⁴, Barbara McGillivray⁵
¹University of Bari Aldo Moro, ²CNR-ILC, Istituto di Linguistica Computazionale 'A. Zampolli', ³Department of Computer Science, University of Bari Aldo Moro, ⁴Universitá degli Studi di Bari, ⁵King's College London

16:00 - 16:20

ACID: On the Perception of Online Classism
Arianna Muti¹, Elisa Bassignana², Amanda Cercas Curry¹, Federica Durante³, Dirk Hovy¹, Debora Nozza¹
¹Bocconi University, ²IT University of Copenhagen, ³Università Milano Bicocca

16:20 - 16:40

The Spectrum of Sentiment: Optimistic, Pessimistic, and Neutral Voices in Online Depression Discourse
Stefana Tabusca¹, Ana-Maria Bucur², Liviu Dinu¹
¹University of Bucharest, ²Università della Svizzera italiana

15:00 - 16:40

Session O39: Applications Involving LRs and Evaluation III - Room 3

15:00 - 15:20

A Benchmark Dataset and Comparative Evaluation of Phonemized and Romanized Urdu for Text-to-Speech
M Kaab Bin Shahid¹ and Muhammed Izharuddin²
¹University of Stuttgart, ²Aligarh Muslim University

15:20 - 15:40

S-VoCAL: A Dataset and Evaluation Framework for Inferring Speaking Voice Character Attributes in Literature
Abigail Berthe-Pardo¹, Gaspard Michel², Elena Epure², Christophe Cerisara³
¹Université de Lorraine, CNRS, LORIA, ²Deezer Research, ³Universite de Lorraine, CNRS, LORIA

15:40 - 16:00

BankMathBench: A Benchmark for Numerical Reasoning in Banking Scenarios
Yunseung Lee¹, Subin Kim², Youngjun Kwak², Jaegul Choo³
¹KakaoBank Corp., ²Kakaobank, ³Korea Advanced Institute of Science and Technology

16:00 - 16:20

TR-TEB: Turkish Text Embedding Benchmark
Omer Arslan, Atalay Celik, Yusuf Aslan, Hasan Durkaya, Mustafa Zenginoglu, Musa Yilmaz, Merve Kantarci, Mehmet Haklidir
TUBITAK BILGEM

16:20 - 16:40

Simple Additions, Substantial Gains: Expanding Scripts, Languages, and Lineage Coverage in URIEL+
Mason Shipton¹, York Hay Ng², Aditya Khan², Phuong Hoang², Xiang Lu³, A. Seza Dogruoz⁴, Annie Lee²
¹Ontario Tech University, ²University of Toronto, ³University of Michigan, ⁴Universiteit Gent

15:00 - 16:40

Session O40: Multimodality, Cross-modality - Room 4

15:00 - 15:20

SciClaimEval: Cross-modal Claim Verification in Scientific Papers
Xanh Ho¹, Yun-Ang Wu², Sunisth Kumar³, Tian Cheng Xia⁴, Florian Boudin⁵, Andre Greiner-Petter⁶, Akiko Aizawa¹
¹National Institute of Informatics, ²National Taiwan University, ³University of Tokyo, ⁴University of Bologna, ⁵Nantes University, ⁶University of Goettingen

15:20 - 15:40

Localizing Events in Space: Comparing Humans and AI Models
Derrick Eui Gyu Kim, Kenneth Lai, James Pustejovsky
Brandeis University

15:40 - 16:00

STRUDEL: Unrolling a Benchmark for Evaluating Vision-Language Models on Structured Diagram Understanding across Domains
Daniel Steinigen, Lucie Flek, Sebastian Houben
Fraunhofer IAIS

16:00 - 16:20

VG-CoT: Towards Trustworthy Visual Reasoning via Grounded Chain-of-Thought
Byeonggeuk Lim, Kyeonghyun Kim, Jungmin Yun, Youngbin Kim
Chung-ang University

16:20 - 16:40

VectorEdits: A Dataset and Benchmark for Instruction-Based Editing of Vector Graphics
Josef Kuchar¹, Marek Kadlcik², Michal Spiegel³, Michal Stefanik¹
¹Masaryk University, ²Faculty of Informatics, Masaryk University, ³Kempelen Institute of Intelligent Technologies

15:00 - 16:40

Session P10.1: Social Media - Poster Area

ViWikiFC: Fact-Checking for Vietnamese Wikipedia-Based Textual Knowledge Source
Hung Le¹, Long To¹, Manh Nguyen¹, Kiet Nguyen²
¹University of Information Technology, HCM VNU, ²University of Information Technology, VNU-HCM

Automated Extraction of Answer Candidates for Question Generation
Claudia Preda¹, Mihai Dascalu¹, Stefan Ruseti², Danielle McNamara³
¹National University of Science and Technology POLITEHNICA Bucharest, ²University Politehnica of Bucharest, ³Arizona State University

Green Bots versus Red Bots: Evaluating Large Language Models for Simulating Persuasion Dynamics in Online Influence Campaigns
Majd Al Ali¹, Filip Muntean², Lucia Donatelli¹, Jurriaan van Diggelen³
¹Vrije Universiteit Amsterdam, ²Vrije Universiteit, ³TNO

Towards Expectation Detection in Language: A Case Study on Treatment Expectations in Reddit
Aswathy Velutharambath¹ and Amelie Wührl²
¹University of Stuttgart, University of Bamberg, ²IT University of Copenhagen

Empathy Speaks in Metaphors: The Empathy-Metaphor Corpus of Figurative Language in Empathetic Text
Gyeongeun Lee and Natalie Parde
University of Illinois at Chicago

A Computational Diachronic Analysis of Gen Z Mental Health Discourse: A Large-scale Reddit Corpus Study from Pre- to Post-COVID
Felix Mao
Rye Country Day School

"Oat Milk Vegan Chocolate Taste Great!": Monitoring the Food Transition Debate in Reddit
Greta Zella¹, Jan Willem Bolderdijk², Saskia Peels¹, Gerry Wakker¹, Tommaso Caselli³
¹University of Groningen, ²University of Amsterdam, University of Groningen, ³Rijksuniversiteit Groningen

ClimateChat-300K: A Multi-Modal Facebook Dataset for Understanding Diverse Perspectives in Climate Communication
Wajdi Zaghouani¹, Md. Rafiul Biswas², Mabrouka Bessghaier¹, Shimaa Ibrahim¹, George Mikros²
¹Northwestern University Qatar, ²Hamad Bin Khalifa University

HateMirage: An Explainable Multi-Dimensional Dataset for Decoding Faux Hate and Subtle Online Abuse
Sai Kartheek Reddy Kasu¹, Shankar Biradar², SUNIL SAUMYA³, Md. Shad Akhtar⁴
¹Student, ²Assistant Professor, ³INDIAN INSTITUTE OF INFORMATION TECHNOLOGY DHARWAD, ⁴Indraprastha Institute of Information Technology, Delhi

MindSET: Advancing Mental Health Benchmarking through Large-Scale Social Media Data
Saad Mankarious¹, Edward Kempa², Daniel Wiechmann³, Elma Kerz⁴, Yu Qiao⁵, Ayah Zirikly⁶
¹Cornell College, ²University of Florida, Department of Computer and Information Science and Engineering, ³Institute for Logic Language and Computation, ⁴Exaia Technologies, ⁵RWTH Aachen University, ⁶Johns Hopkins University

A Corpus of Misunderstood Irony on Turkish Social Media
Çagri Çöltekin and Güliz Günes
University of Tübingen

15:00 - 16:40

Session P10.2.1: Linguistics and Psycholinguistics I - Poster Area

A Corpus of Joint EEG and Self-Paced Reading of Natural Dutch Texts
Sara Østergaard, Lenneke Lichtenberg, Laura Boon, Bruno Nicenboim
Tilburg University

How Long Does a Quick Kiss Take? Studying Event Duration of Light Verb Constructions Using Explicit Word Embeddings
Lin de Huybrecht and Geraint Wiggins
Vrije Universiteit Brussel

Evaluation Drift in LLM Personality Induction: Are We Moving the Goalpost?
Prateek Rajput, Yewei Song, Iyiola Olatunji, Jacques Klein, Tegawendé Bissyande
University of Luxembourg

A Multi-Dialectal, Longitudinal Corpus of Human-AI Hybrid Language Production
Qiao Gan¹, Jonathan Dunn², Andrea Nini³, Benjamin Adams¹
¹University of Canterbury, ²University of Illinois Urbana-Champaign, ³University of Manchester

Semantic Information: A Difference That Makes a Difference
J. Nathanael Philipp¹, Max Kölbl², Michael Richter³
¹Sächsische Akademie der Wissenschaften zu Leipzig, ²Osaka University, ³Leipzig University

Modeling the Memory-Surprisal Trade-Off over Time: Communicative Efficiency Decreases with Lexico-Grammatical Change in Scientific English
Julius Steuer¹, Marie-Pauline Krielke², Stefania Degaetano-Ortlieb², Elke Teich³, Dietrich Klakow²
¹Heidelberg Institute for Theoretical Studies, ²Saarland University, ³Universität des Saarlandes

Mechanistic Interpretability Meets Cognitive Linguistics: Modelling Locative Image Schemas in the Circuit Framework
Mattia Proietti¹, Afra Alishahi², Grzegorz Chrupala², Alessandro Lenci³
¹Università di Pisa, ²Tilburg University, ³University of Pisa

Variation Is the Norm: Embracing Sociolinguistics in NLP
Anne-Marie Lutgen¹, Alistair Plum¹, Verena Blaschke², Barbara Plank², Christoph Purschke¹
¹University of Luxembourg, ²LMU Munich

Appraisal Theory-Informed Emotion Prediction
Xiaowei Wang¹, Jayant Teotia², Rui Mao³, Wandeep Ratan Singh¹, Sabrina Tiun¹, Erik Cambria⁴
¹Universiti Kebangsaan Malaysia, ²NTU, ³Ruimao Tech, ⁴Nanyang Technological University

The Evolution of Philosophy: A Metaphorical Cognition Perspective
Rui Mao¹, Dapeng Chen², Zihao Huang³, Xulang Zhang³, Erik Cambria³
¹Ruimao Tech, ²Jiangsu Open University, ³Nanyang Technological University

15:00 - 16:40

Session P10.2.2: Linguistics and Psycholinguistics II - Poster Area

Predicting States of Understanding in Explanatory Interactions Using Cognitive Load-Related Linguistic Cues
Yu Wang¹, Olcay Türk¹, Angela Grimminger², Hendrik Buschmeier¹
¹Bielefeld University, ²Paderborn University

Figurative Language in Alzheimer's Discourse: Linguistic and Neural Alignment in Clinical Narratives
Diana Kylymnyk¹, Vitória Tomasel², Helena Caseli³, Edward Watkins⁴, Aline Villavicencio⁵, Rodrigo Wilkens⁴
¹Department of Computer Science and Psychology, University of Exeter, ²Federal University of Sao Carlos, ³Federal University of São Carlos, ⁴university of Exeter, ⁵University of Exeter, UK

Prompting Instruction-tuned LLMs for Semantic Similarity Values
Xander Snelder, Yunchong Huang, Jelke Bloem
University of Amsterdam

Towards Dynamic Metaphor Identification: Evaluating GPT O-Series Models on Five Metaphoricity Cues in U.S. Trade Corpora
Berkay Bas¹, Jelke Bloem¹, Xiaojuan Tan²
¹University of Amsterdam, ²VU Amsterdam

Rethinking Evaluation in Retrieval-Augmented Personalized Dialogue: A Cognitive and Linguistic Perspective
Tianyi Zhang¹ and David Traum²
¹University of Southern California, ²University of Southern California Institute for Creative Technologies

Evaluating Multimodal Large Language Model Narrative Interpretation through the Lens of Appraisal Theory
Jayant Teotia¹, Xiaowei Wang², Xulang Zhang³, Rui Mao³, Erik Cambria³
¹NTU, ²Universiti Kebangsaan Malaysia, ³Nanyang Technological University

Mapping Liberty Metaphors across Cultures and Time
Sidney Suen¹, Rui Mao¹, Kenneth Kwok², Erik Cambria¹
¹Nanyang Technological University, ²Agency for Science, Technology and Research

The Sensorimotor Norms for the Chinese Classifiers
Yimei Shao¹, Yu-Yin Hsu¹, Chu-Ren Huang²
¹The Hong Kong Polytechnic University, ²The Hong Kong Polytechnic Universiy

DeepQuestion: Systematic Generation of Real-World Challenges for Evaluating LLMs Performance
Ali Khoramfar, Ali Ramezani, Mohammad Mahdi Mohajeri, Mohammad Javad Dousti, Majid Nili Ahmadabadi, Heshaam Faili
University of Tehran

Pragmatic Modelling in Language Learning: Caregiver Question-Answer Feedback in Child-Directed Dialogue
Maryam Bala¹, Johannes Heim², Elspeth Edelstein², Arabella Sinclair³
¹University of Southampton, ²University of Aberdeen, ³University College London

15:00 - 16:40

Session P10.3.1: Parsing and Tagging I - Poster Area

Modular Approach to Automating Morphological Components in Grammar Engineering
Ekaterina Voloshina¹ and Krasimir Angelov²
¹University of Gothenburg, Chalmers University of Technology, ²University of Gothenburg and Chalmers University of Technology

MorfFlex: Handling Rich Morphology
Jaroslava Hlavácová¹, Marie Mikulová², Barbora tepánková³, Milan Straka³, Jan Hajic²
¹CUNI, ²Charles University, ³Charles University, Faculty of Mathematics and Physics, Institute of Formal and Applied Linguistics

Using Valency Inheritance in Building a Valency Lexicon
Václava Kettnerová¹, Veronika Kolárová¹, Jirí Mírovský², Michal Olbrich²
¹Charles University, Faculty of Mathematics and Physics, Institute of Formal and Applied Linguistics, ²Charles University

From CHAT to Coded CoNLL-U: A Reproducible Pipeline for the Syntactic Annotation and Querying of Child Language Data
Achim Stein
University of Stuttgart

TækTåK: Syntactic Analysis of Language Use on Danish TikTok
Thea Kristensen and Rob van der Goot
IT University of Copenhagen

Adaptive Chunking: Optimizing Chunking-Method Selection for RAG
Paulo de Moura Júnior, Jean Lelong, Annabelle Blangero
Ekimetrics

Do Large Language Models Grasp the Grammar? Evidence from Grammar-Book-Guided Probing in Luxembourgish
Lujun LI¹, Yewei Song¹, Lama Sleem¹, Yiqun Wang¹, Yangjie Xu¹, Cedric LOTHRITZ², Niccolo' Gentile³, Radu State¹, Tegawendé Bissyandé¹, Jacques Klein¹
¹University of Luxembourg, ²Luxembourg Institute of Science and Technology (LIST), ³Foyer S.A.

Survey of Tools for Manual Linguistic Annotation: Supporting Diversity through Interactive Exploration
Ludovica Pannitto¹, Kaja Dobrovoljc², Bruno Guillaume³
¹LILEC - University of Bologna, ²University of Ljubljana, ³LORIA / Inria Nancy Grand-Est

TextLens & LeTTuce: Automated Corpus Annotation and Multilingual Tagging as a Service
Cynthia Van Hee¹, Jonas Doumen², Vincent Prins³, Pranaydeep Singh⁴, Vincent Vandeghinste³, Els Lefever⁵
¹LT3, Language and Translation Technology Team (Ghent University), ²KU Leuven, imec research group itec, ³Instituut voor de Nederlandse Taal, ⁴LT3, University of Ghent, ⁵LT3, Ghent University

The Corpus of Contemporary Polish a New Reference Corpus with Rich Syntactic Annotations
Witold Kieras¹, Malgorzata Marciniak², Marcin Wolinski¹, Katarzyna Krasnowska-Kieras¹, Marek Lazinski¹
¹Institute of Computer Science, Polish Academy of Sciences, ²Institute of Computer Science PAS

Prague Dependency Treebank - Consolidated 2.0: Enriching a Complex Annotation Scheme
Marie Mikulová¹, Jirí Mírovský¹, Milan Straka², Pavlína Synková¹, Jan tepánek³, Barbora tepánková², Jan Hajic¹
¹Charles University, ²Charles University, Faculty of Mathematics and Physics, Institute of Formal and Applied Linguistics, ³Charles University in Prague, Faculty of Mathematics and Physics, UFAL

Meet UD_Czech-PDTC: A Large and Genre-Rich Treebank in Universal Dependencies
Marie Mikulová¹, Barbora tepánková², Daniel Zeman³, Jan tepánek⁴, Milan Straka², Jan Hajic¹
¹Charles University, ²Charles University, Faculty of Mathematics and Physics, Institute of Formal and Applied Linguistics, ³Charles University, Faculty of Mathematics and Physics, ⁴Charles University in Prague, Faculty of Mathematics and Physics, UFAL

Encoding Logical Relations of Chinese Complex Sentences within the Universal Dependencies Framework
Hongpu Zhu and Hongzhi Xu
Shanghai International Studies University

Unsupervised Labelling of Mutation Triggers in Welsh
Nicolás Gutiérrez-Rolón and Fernando Alva-Manchego
Cardiff University

15:00 - 16:40

Session P10.3.2: Parsing and Tagging II - Poster Area

UzUDT: Uzbek Universal Dependencies Treebank
Sanatbek Matlatipov¹ and Mersaid Aripov²
¹Dr, ²Professor

BRAGD: Constrained Multi-Label POS Tagging for Faroese
Annika Simonsen¹, Barbara Scalvini², Uni Johannesen², Iben Debess², Hafsteinn Einarsson³, Vésteinn Snæbjarnarson⁴
¹The University of Iceland, ²University of the Faroe Islands, ³University of Iceland, ⁴University of Copenhagen

Syntactic Sugar for Syntactic Queries: Sequential Representations for Dependency Queries
Niklas Deworetzki¹ and Arianna Masciolini²
¹Department of Computer Science and Engineering, Chalmers University of Technology and University of Gothenburg, ²University of Gothenburg

Context Is (Almost) Everything: Llama-3 on Structured Output and AMR Parsing
Maja Buljan¹, Stephan Oepen², Lilja Øvrelid³
¹Language Technology Group (LTG), University of Oslo, ²Universitetet i Oslo, ³Dept of Informatics, University of Oslo

Towards the Morphological Annotation of North Markian (Low German)
Christian Chiarcos
University of Augsburg

Cross-Dataset Inconsistencies in Morphological Annotation: Evidence from Universal Dependencies
Vlasta Ohlídalová
Masaryk University

Improving Latvian Morphosyntactic Parsing with Pretrained Encoders and Analyzer-Constrained Decoding
Arturs Znotins
Institute of Mathematics and Computer Science, University of Latvia

CommonMorph: Participatory Morphological Documentation Platform
Aso Mahmudi¹, Sina Ahmadi², Kemal Kurniawan³, Rico Sennrich², Eduard Hovy³, Ekaterina Vylomova³
¹The University of Melbourne, ²University of Zurich, ³University of Melbourne

Datasets for Verb Alternations across Languages: BLM Templates and Data Augmentation Strategies
Giuseppe Samo¹ and Paola Merlo²
¹IDIAP, ²University of Geneva

A Large and Balanced Multi-Domain Arabic Corpus Annotated for Morphology, Syntax, and Readability
Khalid Elmadani¹, Adel Mahmoud Wizani², Hanada Taha Thomure³, Nizar Habash¹
¹New York University Abu Dhabi, ²University of Turin, ³Zayed University

The DELPH-IN Grammary: A Curated Repository of Grammars and Treebanks
Francis Bond¹ and Dan Flickinger²
¹Palacky University, ²Stanford University

Morphemes without Borders: Evaluating RootPattern Morphology in Arabic Tokenizers and LLMs
Yara Alakeel¹, Chatrine Qwaider², Hanan Aldarmaki², Sawsan Alqahtani¹
¹SDAIA, ²MBZUAI

Universal NER v2: Towards a Massively Multilingual Named Entity Recognition Benchmark
Terra Blevins¹, Stephen Mayhew², Marek Suppa³, Hila Gonen⁴, Shachar Mirkin⁵, Vasile Pais⁶, Kaja Dobrovoljc⁷, Voula Giouli⁸, Jun Kevin⁹, Eugene Jang¹, Eungseo Kim¹⁰, Jeongyeon Seo¹¹, Xenophon Gialis¹², Yuval Pinter¹³
¹Northeastern University, ²Duolingo, ³Comenius University in Bratislava, ⁴UBC, ⁵Alpinference, ⁶Research Institute for Artificial Intelligence, Romanian Academy, ⁷University of Ljubljana, ⁸Aristotle University of Thessaloniki / ILSP, ATHENA RC, ⁹Universitas Pelita Harapan, ¹⁰Seoul National University, ¹¹Independent Researcher, ¹²Democritus University of Thrace, ¹³Ben-Gurion University of the Negev

15:00 - 16:40

Session P10.4.1: Lexicon and Semantics II - Poster Area

APODICTUS: Automatic Processing of DICTionary Update candidateS
Felix Blessing¹, Johannes Sax¹, Julian Kaufmann¹, Wei Zhao², Nikolay Arefyev³, Dominik Schlechtweg¹
¹University of Stuttgart, ²University of Aberdeen, ³University of Oslo

A Test Collection for Part-of-Speech Tagging and Word Sense Disambiguation
Robert Krovetz
Lexical Research

Creating a Hybrid Rule and Neural Network Based Semantic Tagger Using Silver Standard Data: The PyMUSAS Framework for Multilingual Semantic Annotation
Andrew Moore¹, Paul Rayson¹, Dawn Archer², Tim Czerniak³, Dawn Knight⁴, Daisy Lal¹, Gearóid Ó Donnchadha⁵, Mícheál Ó Meachair⁶, Scott Piao¹, Elaine Uí Dhonnchadha³, Johanna Vuorinen⁵, Yan Yabo⁷, Xiaobin Yang⁷
¹Lancaster University, ²Manchester Metropolitan University, ³Trinity College Dublin, ⁴Cardiff University, ⁵independent researcher, ⁶Fiontar & Scoil na Gaeilge, Dublin City University, ⁷Hubei University

Scare Quotes as Markers of "Questionable" Word Usages and Misalignment in Conversation: An Annotation Study
Aina Garí Soler¹, Juan Carlos Zevallos Huaco², Matthieu Labeau³, Chloé Clavel⁴
¹PSL University, INRIA Paris, ²Independent Researcher, ³Telecom Paris, ⁴INRIA

Modeling Clinical Uncertainty in Radiology Reports: From Explicit Uncertainty Markers to Implicit Reasoning Pathways
Paloma Rabaey¹, Jong Hak Moon², Jung-Oh Lee³, Min Gwan Kim⁴, Hangyul Yoon², Thomas Demeester¹, Edward Choi²
¹Ghent University, ²KAIST, ³Mount Sinai Hospital, ⁴Seoul National University Hospital

ArabDiscrim: A Decade-Long Arabic Facebook Corpus on Racism and Discrimination
Wajdi Zaghouani¹, Shimaa Ibrahim¹, Mabrouka Bessghaier¹, Houda Bouamor²
¹Northwestern University Qatar, ²Carnegie Mellon University in Qatar

DAMETA: An LLM Benchmark for Danish Metaphor Interpretation with Systematically Varied Distractors
Nina Schneidermann¹, Sanni Nimb², Nathalie Norman¹, Sussi Olsen³, Bolette Pedersen¹
¹University of Copenhagen, ²Society for Danish Language and Literature (DSL), ³UCPH, NorS, Centre for Language Technology

A New Semantic Artifact Based Framework for Studying and Documenting Algospeak and Related Phenomena
Fahad Khan¹, Elisa Gugliotta², Elisa Squadrito³, Maura Tarquini², Francesca Frontini⁴
¹Istituto di Linguistica Computazionale "Antonio Zampolli", CNR, ²Università degli Studi di Sassari, ³Università di Macerata, ⁴Istituto di Linguistica Computazionale "A. Zampolli" - ILC Consiglio Nazionale delle Ricerche - CNR

Creating a High Quality Abstract Meaning Representation Dataset Automatically
Johannes Heinecke¹, Asadullah Munshi², Frédéric Herledan², Geraldine Damnati¹
¹Orange Innovation, ²Orange

Towards a Comprehensive English Wordnet-Wikidata Mapping
John P. McCrae¹, Johann Bergh², Krasimir Angelov³
¹Insight Center for Data Analytics, National University of Ireland Galway, ²Lingolutions, ³University of Gothenburg and Chalmers University of Technology

AmDi - Ambiguous Words Diachronic Dataset
Felix Thielen¹ and Kai Kugler²
¹Trier Univerity, ²Trier University

15:00 - 16:40

Session P10.4.2: Lexicon and Semantics III - Poster Area

GerVLPro: A CEFR-Graded Vocabulary List of L2 Learners' Productive Vocabulary in German
Noah-Manuel Michael¹, Anna Huelsing², Andrea Horbach³
¹Kiel University, ²CAU, ³CAU Kiel / Leibniz Institute for Science and Mathematics Education

Building Bridges between Student and Curricular Language: Creating a Corpus of Abstract Meaning Representations for the Classroom
Kristin Wright-Bettner¹, Zheng Cai², zekun zhao³, James H. Martin¹, Jeffrey Flanigan⁴, Martha Palmer⁵
¹University of Colorado Boulder, ²The University of Colorado, ³University of California, Santa Cruz, ⁴UC Santa Cruz, ⁵University of Colorado

Mu'jam Arriyadh: A Comprehensive Lexicon for Contemporary Arabic Language
Afrah Altamimi¹, Abdulrahman Alosaimy², Halah Alharbi³, Hawra Aljasim³, Muneera Alhoshan⁴, Amal Almazrua⁵, Hanan Alharbi³, Abdulrahman Alshehri¹, Bayan Almuqhim³, Maryam Algarny³, Yahya Asiri⁶, Abdullah I. Alharbi⁷, SALEH ALBALAWI³, Fawziah Asiri¹, Sara Alhifthi⁸, Abdullah Alfaifi⁵
¹KSGAAL, ²King Salman Academy for Arabic Language / Imam Mohammed Bin Saud Islamic University, ³King Salman Global Academy for Arabic Language, ⁴King Salman Global Global Academy for Arabic Language, ⁵KSAA, ⁶King salman global academy of Arabic language, ⁷King Salman Global Academy for Arabic, ⁸Saudi Arabia

The Romanian Corpus Annotated with Multiword Expressions. PARSEME-Ro Version 2.0
Verginica Barbu Mititelu¹, Mihaela Cristescu², Elena Irimia³, Carmen Vasile²
¹RACAI, ²University of Bucharest, ³Research Institute for Artificial Intelligence, Romanian Academy (RACAI)

Missing Links: LLM-Augmentation of Event Triggers of State Changes in the OpenPI Dataset
Kyeongmin Rim¹ and James Pustejovsky²
¹Department of Computer Science, Brandeis University, ²Brandeis University

VUPMC: A New Political Metaphor Corpus in Mandarin Chinese
Xiaojuan Tan
VU Amsterdam

Not All Disneys Are the Same: Making Coreference Metonymy-Aware
Bingyang Ye, Jingxuan Tu, James Pustejovsky
Brandeis University

JSTS-Neg: Japanese Semantic Textual Similarity Dataset for Evaluating Negation Understanding Ability
Reiko Yuasa, Yoshihide Kato, Shigeki Matsubara
Nagoya University

Few-shot Prompting or Supervised Tuning? A Comparative Study of LLMs for Linguistically Distant Language Pairs in BDI
Deepen Naorem¹, Sanasam Ranbir Singh², Telem Joyson Singh³, Priyankoo Sarmah⁴
¹Indian Institute of Technology, Guwahati, ²Indian Institute of Technology, ³IIT Guwahati, ⁴Indian Institute of Technology Guwahati

When Structure Matters: Cross-Lingual Hyperbolic Embeddings for Chinese and English Wordnets
Mao-Chang Ku¹, Da-Chen Lian², Pin-Er Chen¹, Po-Ya Angela Wang¹, Wei-Ling Chen¹, Shu-Kai HSIEH²
¹National Taiwan University, ²Graduate Institute of Linguistics, National Taiwan University

16:40 - 17:00

Coffee Break

17:00 - 18:20

LREC 2022 Closing Ceremony - Room 1

20:00

LREC 2022 GALA Dinner

End of Day 3

Conference Programme – Day 3