Transfer learning applied to text classification in Spanish radiological reports

Publicaciones

Los codificadores de texto pre-entrenados han avanzado rápidamente en el estado del arte en muchas tareas de Procesamiento del Lenguaje Natural (PLN). Este trabajo presenta el uso de métodos de aprendizaje de transferencia aplicados a la detección automática de códigos en los informes radiológicos en español. La asignación de códigos a un documento clínico es una tarea popular en el PLN y en el dominio biomédico. Estos códigos pueden ser de dos tipos: clasificaciones estándar (por ejemplo, ICD-10) o específico para cada clínica u hospital. En este estudio mostramos un sistema que utiliza códigos específicos de clínicas de radiología. El conjunto de datos está compuesto por 208.167 informes de radiología etiquetados por expertos con 89 códigos diferentes. El corpus ha sido evaluado con tres métodos utilizando BERT aplicado al español: BERT multilingual, BETO y XLM multilingual. Los resultados son prometedores al obtener el 70% de la puntuación en la métrica F1 con un modelo multilingüe pre-entrenado.

Cita Bibliográfica: Proceedings of the LREC 2020 Workshop on Multilingual Biomedical Text Processing (MultiligualBIO 2020)

Autores: López Úbeda, Pilar | Díaz Galiano, M. Carlos  |  Ureña López, L. Alfonso | Martín Valdivia, M. Teresa | Martín Noguerol, Teodoro | Luna, Antonio

URL: https://www.aclweb.org/anthology/2020.multilingualbio-1.5/

Tareas relacionadas:

  • (En construcción)