For this edition, the corpus consists of simulated yet realistic therapeutic conversations in Spanish between patients and professional therapists. The conversations were created using a combination of human-authored and synthetically generated dialogues, all of which were reviewed by experts to ensure clinical plausibility.
This task focuses on the early identification of mental health symptoms expressed by a patient during a therapeutic dialogue, by mapping patient language to standardized clinical questionnaires.
Participants are given therapist–patient conversations that unfold over multiple chat messages. After each patient turn, systems must infer the patient’s responses to a set of validated psychometric instruments, including PHQ-9, CompACT-10, and GAP-7, based on the dialogue observed up to that point.
Rather than directly predicting abstract symptom labels, systems are required to estimate how the patient would respond to each questionnaire item, effectively translating natural language into structured clinical assessments.
Key characteristics of the task include:
The task is framed as a multiclass classification problem at the item level, where each question has a fixed set of possible responses (e.g., Likert-scale options).
No labeled training data are provided. Systems must rely on zero-shot, weakly supervised, or knowledge-based approaches (e.g., pretrained language models, prompting strategies, or external resources).
Indique con qué frecuencia ha sentido molestias por los siguientes problemas durante las últimas dos semanas, siendo 0 (nunca), 1 (varios días), 2 (más de la mitad de los días) y 3 (casi todos los días).
Sentirse nervioso/a, intranquilo/a o con los nervios de punta
No poder dejar de preocuparse o no poder controlar la preocupación
Preocuparse demasiado por diferentes cosas
Dificultad para relajarse
Estar tan inquieto/a que es difícil permanecer sentado/a tranquilamente
Molestarse o ponerse irritable fácilmente
Sentir miedo como si algo terrible pudiera pasar
Lea las siguientes afirmaciones e indique su grado de acuerdo utilizando la siguiente escala:
Hago apresuradamente actividades significativas para mí, sin prestarles realmente atención.
Actúo de forma coherente con cómo deseo vivir mi vida.
Me digo a mí mismo/a que no debería tener ciertos pensamientos.
Me comporto de acuerdo con mis valores personales.
Me esfuerzo mucho por evitar situaciones que puedan traerme pensamientos, sentimientos o sensaciones difíciles.
Incluso cuando hago las cosas que me importan, me encuentro haciéndolas sin prestar atención.
Acometo las cosas que son significativas para mí, incluso cuando me resulta difícil hacerlo.
Me esfuerzo mucho por mantener alejados los sentimientos molestos.
Parece que voy “en piloto automático” sin ser muy consciente de lo que estoy haciendo.
Puedo seguir adelante con algo cuando es importante para mí.
Indique qué tan seguido le han afectado cualquiera de los siguientes problemas durante las últimas dos semanas, siendo 0 (para nada), 1 (varios días), 2 (más de la mitad de los días) y 3 (casi todos los días).
Poco interés o placer en hacer las cosas.
Se ha sentido decaído(a), deprimido(a), o sin esperanzas.
Dificultad para dormir o permanecer dormido(a), o ha dormido demasiado.
Se ha sentido cansado(a) o con poca energía.
Con poco apetito o ha comido en exceso.
Se ha sentido mal con usted mismo(a) – o que es un fracaso o que ha quedado mal con usted mismo(a) o con su familia.
Ha tenido dificultad para concentrarse en cosas tales como leer el periódico o ver televisión.
Se ha estado moviendo o hablando tan lento que otras personas podrían notarlo, o por el contrario – ha estado tan inquieto(a) o agitado(a), que se ha estado moviendo mucho más de lo normal.
. Ha pensado que estaría mejor muerto(a) o se le ha ocurrido lastimarse de alguna manera.
Task 2 evaluates NLP systems as decision-support tools for therapists in a multi-turn setting. At each interaction step, systems receive the latest user message along with three candidate therapist responses, and must select the most appropriate option according to expert-defined best practices.
Importantly, the full conversation history is not provided explicitly at each step. Instead, teams are expected to maintain and accumulate context across successive turns, effectively reconstructing the dialogue as the interaction progresses.
This process is repeated over multiple rounds, simulating a continuous therapeutic conversation.
Key characteristics of the task include:
Each instance consists of the current user message and three candidate therapist responses.
The dialogue history must be implicitly tracked by the system across turns, as it is not re-supplied.
Responses are selected rather than generated, ensuring a controlled and ethically safe evaluation setting.
Candidate responses may include both AI-generated and human-authored interventions, with one option identified by experts as the most appropriate.