▶ Más recursos disponibles en github
▶ MEDSPANER: reconocedor semántico de entidades médicas basado en Python
Herramienta de anotación semántica para textos médicos en español.
Primariamente desarrollada para anotar textos de ensayos clínicos, también se puede aplicar a otros tipos de textos médicos.
Consulte el repositorio GitHub.
Vea un vídeo de demostración.
▶ Clinical Trials for Evidence-Based Medicine in Spanish (CT-EBM-SP) corpus
Colección de 1200 textos sobre estudios clínicos y anuncios de protocolos de ensayos clínicos.
El corpus está anotado con entidades del Unified Medical Language System.
El corpus se distribuye con fines educativos o de investigación mediante una Licencia Creative Commons no comercial de atribución (CC-BY-NC-A).
Sistema de ayuda a la comprensión de textos médicos para personas sin conocimientos sanitarios.
Actualmente se encuentra en desarrollo y necesita evaluación por los usuarios.
Corpus comparable de textos médicos técnicos y simplificados (24 298 pares de textos) en español (licencia Creative Commons de atribución, CC-BY).
Incluye un subconjunto de 3 800 frases paralelas (versión técnica alineada con la simplificada), revisada por pares de expertos.
▶ Medical Lexicon for Spanish (MedLexSp)
Lexicón unificado de términos médicos en español con información lingüística y semántica.
Se distribuye con fines educativos o de investigación.
▶ Simple Medical Lexicon for Spanish (SimpMedLexSp)
Léxico de términos médicos en español con equivalentes en registro simplificado para pacientes.
14465 formas (incluyendo variantes de conjugación, género y número) hasta la fecha, de las cuales un subconjunto (4664) está normalizado al Unified Medical Language System (UMLS).
▶ Sistema de diálogo PatientGenesys
He colaborado en el desarrollo de un agente conversacional que simula una consulta con un paciente virtual. El sistema se integra en la plataforma PatientGenesys, un juego formativo (serious game) destinado a la formación continua de los profesionales de salud.
Vea un vídeo de demostración del sistema completo.
Vea un vídeo de la versión en inglés o en español.
Estuve encargado de la parte española del corpus de textos de medicina en el marco del proyecto MultiMedica (2010-2013).
Revisé el corpus español, preparé los lexicones y diccionarios, y colaboré en el desarrollo del extractor automático de términos biomédicos en español.
▶ Corpus Oral de Español como Lengua Extranjera
Se trata de un corpus de interlengua de español como lengua extranjera (E/LE) recogido para llevar a cabo análisis de errores.
Reúne 40 entrevistas con aprendices de español de nivel A2 y B1 (Marco común europeo de referencia)
Los participantes tienen más de 9 lenguas maternas (portugués, francés, italiano, inglés, alemán, holandés, polaco, japonés y chino).
▶ LYNEAL (Letras y números en análisis lingüísticos)
He colaborado en la mejora de la usabilidad para el usuario y la traducción de la herramienta desarrollada por Hiroto Ueda (Universidad de Tokio).
La herramienta permite la consulta de textos: entre otros, búsqueda de palabras y patrones lingüísticos, obtención de concordancias y frecuencias de aparición.
▶ Tengo experiencia en el procesamiento de materiales didácticos de tipo hipertextual para español como lengua extranjera:
Actividades basadas en el Corpus Oral de Español como Lengua Extranjera, destinadas a la formación de profesores de español.
Inteligencia artificial en comprensión de textos médicos: reportaje en El laboratorio de JAL, espacio de divulgación presentado por José Antonio López Guerrero (25 de septiembre del 2025)
Entrevista en Hoy empieza todo 2 (Radio 3), 23 de octubre del 2023.
▶️ Consultar la lista de reproducción de vídeos divulgativos.
"Aprende cómo funciona el procesamiento del lenguaje en la Inteligencia Artificial", en colaboración con Antonio Moreno Sandoval y Ana García Serrano. XXIII Semana de la Ciencia (10 y 17 de octubre del 2023). Consultar índice de contenidos.
"¿Cómo ayuda el procesamiento del lenguaje a simplificar textos médicos?", Jornadas EnClaro 5ª edición (24 de octubre del 2023)
"Recursos para el procesamiento del lenguaje médico en español", en Jornada de Biología Computacional, Ciencia de datos e Inteligencia Artificial (CSIC, 3 de julio del 2023)
"Simplificación de textos médicos con procesamiento del lenguaje: el proyecto CLARA-MeD", Seminario Mirian Andrés, Universidad de La Rioja (23 de mayo del 2023)
"Proyecto CLARA-MeD. Procesamiento del lenguaje médico para la simplificación automática de textos", Jornada de Grandes infraestructuras europeas de Ciencias Sociales y Humanidades en el CSIC: DARIAH y CLARÍN en el horizonte (11 de mayo del 2023)
"Advances in processing and simplification of clinical trials texts", seminario invitado en LISN (14 de marzo del 2023) y en CENTAL (16 de marzo del 2023)
"A clinical trials corpus annotated with UMLS". Seminario de la Cátedra IIC-UAM de Lingüística Computacional, 24 de april del 2021
"A bird's eye view of NLP resources for Spanish medical text mining". COVID-19 Hackathon, diciembre de 2020. Lista de corpus biomédicos en español
Participación en el "XVII Seminario TIC-ETL: El egresado en Filología en las Industrias de la Lengua". UNED, 10 mayo de 2019.
"Adaptivity in Natural Language Interaction in a Virtual Patient Simulation System". LIMSI, CNRS, 21 de noviembre de 2017.
"Introduction to fastText". LIMSI, CNRS, 2017.
"Introduction to vector representations of words and documents". LIMSI, CNRS, 22 de septiembre de 2016.
"Part-of-Speech Tagging a Spanish Learner Oral Corpus". Spanish Learner Corpus Workshop, Universidad de La Coruña, 14 de julio de 2015.
"Description of the PatientGenesys dialogue system". Seminario de postdoctorado, Grupo ILES (LIMSI, CNRS), 16 de junio de 2015.
"Proyecto MultiMedica. Consulta de textos médicos y extractor de términos". Unidad de Terminología Médica, Real Academia Nacional de Medicina, mayo de 2014.
"Proyecto MultiMedica". Universidad de Alcalá de Henares, Facultad de Medicina, mayo de 2014
"Textos de español oral. Recurso para el aprendizaje de E/LE basado en corpus de habla espontánea". Instituto Cervantes de Beijin, 2 abril de 2012
"Taller de corpus". Sophia University, Tokyo. 12 de enero de 2010.
Última actualización: septiembre del 2025.