Extracting Neoplasms Morphology Mentions in Spanish Clinical Cases through Word Embeddings

Publicaciones

La biomedicina es un entorno ideal para el uso del Procesamiento del Lenguaje Natural (PLN), debido a la enorme cantidad de información procesada y almacenada en formato electrónico. Esta información puede ser gestionada de diferentes formas mediante tareas de PLN como el Reconocimiento de Entidades Nombradas (NER). Para abordar esta tarea, CANTEMIST es el primer reto que se centra específicamente en el NER y la normalización de entidades con nombre de un tipo de concepto crítico relacionado con el cáncer.  Para la normalización de entidades, el reto propone utilizar los códigos CIE-O (Clasificación Internacional de Enfermedades para la Oncología, 3ª edición – CIE-O-3). En este trabajo se presenta un sistema automatizado basado en redes neuronales para la extracción de menciones morfología tumoral en casos clínicos españoles. En particular, utilizamos una variante bidireccional de memoria a largo
Corto Plazo (BiLSTM) con una capa de Campos Aleatorios Condicionales (CRF). La entrada La entrada a esta red es una combinación de diferentes incrustaciones de palabras. En la tarea NER se obtuvieron resultados alentadores resultados alentadores, obteniendo un 85,5% de puntuación F1. Además, se utiliza un sistema basado en diccionarios para asignar posteriormente un código CIE-O a cada entidad anotada. En esta subtarea, nuestro grupo logró un 75,9% de puntuación F1.

Cita bibliográfica: Proceedings of the Iberian Languages Evaluation Forum (IberLEF 2020)

Autores: López Úbeda, Pilar | Díaz Galiano, Manuel Carlos | Martín Valdivia, María Teresa |Ureña López, L. Alfonso

Enlace a publicación: http://ceur-ws.org/Vol-2664/cantemist_paper1.pdf