Este artículo describe el sistema presentado por el grupo de investigación SINAI al reto eHealth-KD en IberLEF 2020. Se definieron dos subtareas principales para el descubrimiento de conocimiento en la historia clínica española el reconocimiento de entidades y la extracción de relaciones. En el campo del Procesamiento del Lenguaje Natural (PLN), el Reconocimiento de
En el campo del Procesamiento del Lenguaje Natural (PLN), el Reconocimiento de Entidades Nombradas (NER) puede formularse como un problema de etiquetado de secuencias en el que el texto se trata como una secuencia de palabras que deben etiquetarse con etiquetas lingüísticas. Dado que los enfoques más avanzados para el etiquetado de secuencias suelen utilizar redes neuronales recurrentes (RNN), nuestra propuesta emplea una red neuronal BiLSTM+CRF en la que se combinan diferentes incrustaciones de palabras como entrada a la arquitectura. De este modo, podemos de diferentes tipos de incrustación de palabras para la tarea de NER en las historias clínicas españolas de los registros médicos españoles: incrustaciones médicas generadas por nosotros mismos, incrustaciones no médicas contextualizadas y médicos preentrenados basados en transformadores. Los resultados obtenidos para la tarea de reconocimiento de entidades alcanzaron la puntuación F1 más alta entre todos los participantes, mientras que los obtenidos para la tarea de extracción de relaciones muestran que el enfoque propuesto necesita ser explorado más a fondo.
Cita bibliográfica: Proceedings of the Iberian Languages Evaluation Forum (IberLEF 2020)
Autores: López Úbeda, Pilar | Perea Ortega, José Manuel | Díaz Galiano, Manuel Carlos | Martín Valdivia, María Teresa | Ureña López, L. Alfonso