Publicaciones – Living-Lang https://livinglang.gplsi.es Tecnologías del lenguaje humano para entidades digitales vivas Wed, 28 Apr 2021 09:30:32 +0000 es hourly 1 https://wordpress.org/?v=6.1.1 https://i0.wp.com/livinglang.gplsi.es/wp-content/uploads/2020/07/cropped-Logo-Living-Lang.png?fit=32%2C32&ssl=1 Publicaciones – Living-Lang https://livinglang.gplsi.es 32 32 171873247 “Here Are the Rules: Ignore All Rules”: Automatic Contradiction Detection in Spanish https://livinglang.gplsi.es/here-are-the-rules-ignore-all-rules-automatic-contradiction-detection-in-spanish/ Wed, 28 Apr 2021 09:29:35 +0000 https://livinglang.gplsi.es/?p=1900 Este artículo aborda la detección automática de contradicciones en español en el ámbito de las noticias. Dos piezas de información se clasifican como información compatible, contradictoria o no relacionada. Para hacer frente a la tarea, se creó el conjunto de datos ES-Contradiction. Este conjunto de datos contiene un número equilibrado de cada uno de los tres tipos de información. La novedad de la investigación es la anotación detallada de los diferentes tipos de contradicciones en el conjunto de datos. Actualmente, los ejemplos de contradicciones cubren cuatro tipos diferentes de contradicciones: negación, antónimos, numérica y estructural. Sin embargo, el trabajo futuro ampliará el conjunto de datos con todos los tipos posibles de contradicciones. Para validar la efectividad del conjunto de datos se utiliza un modelo preentrenado (BETO), y luego de realizar diferentes experimentos, el sistema es capaz de detectar contradicciones con un F1m de 92.47%. En cuanto al tipo de contradicciones, los mejores resultados se obtienen con contradicción de negación (F1m = 98%), mientras que las contradicciones estructurales obtienen los resultados más bajos (F1m = 69%) debido al menor número de ejemplos estructurales, debido a la complejidad de generarlos. . Cuando se trata de un conjunto de datos más generalista como XNLI, nuestro conjunto de datos no detecta la mayoría de las contradicciones correctamente, ya que el tamaño de ambos conjuntos de datos es muy diferente y nuestro conjunto de datos solo cubre cuatro tipos de contradicciones. Sin embargo, utilizar la clasificación de las contradicciones nos lleva a concluir que existen contradicciones de alta complejidad que requerirán de un conocimiento externo para ser detectadas adecuadamente y esto evitará la necesidad de que estén previamente expuestas al sistema.

Cita bibliográfica: Sepúlveda-Torres R, Bonet-Jover A, Saquete E. “Here Are the Rules: Ignore All Rules”: Automatic Contradiction Detection in Spanish. Applied Sciences. 2021; 11(7):3060. https://doi.org/10.3390/app11073060

Autores: Sepúlveda-Torres, Robiert | Bonnet-Jover, Alba | Saquete, Estela

Enlace a publicación: https://www.mdpi.com/2076-3417/11/7/3060

]]>
1900
Automatic medical protocol classification using machine learning approaches https://livinglang.gplsi.es/automatic-medical-protocol-classification-using-machine-learning-approaches/ Wed, 03 Mar 2021 12:50:07 +0000 https://livinglang.gplsi.es/?p=1841 La asignación de protocolos de procedimientos de imagen médica requiere un amplio conocimiento de los datos del paciente, generalmente incluidos en los formularios de solicitud radiológica y en los informes radiológicos. La asignación del protocolo es necesaria antes de la adquisición del estudio radiológico, determinando el procedimiento para cada paciente. La automatización de este proceso de asignación de protocolos podría mejorar la eficiencia del diagnóstico del paciente. La inteligencia artificial ha demostrado ser de gran ayuda en estos problemas relacionados con la asistencia sanitaria, y concretamente la aplicación de técnicas de Procesamiento del Lenguaje Natural (PLN) para extraer información de los informes de texto se ha utilizado con éxito en tareas de clasificación automática de textos.

Cita bibliográfica: Computer Methods and Programs in Biomedicine
Volume 200, March 2021, 105939 https://doi.org/10.1016/j.cmpb.2021.105939

Autores: López Úbeda, Pilar | Díaz Galiano, Manuel Carlos | Martín Noguerol, Teodoro | Luna, Antonio | Ureña López, L. Alfonso | Martín Valdivia, María Teresa

Enlace a publicación: https://www.sciencedirect.com/science/article/pii/S0169260721000134

]]>
1841
How Successful Is Transfer Learning for Detecting Anorexia on Social Media? https://livinglang.gplsi.es/how-successful-is-transfer-learning-for-detecting-anorexia-on-social-media/ Fri, 19 Feb 2021 12:53:00 +0000 https://livinglang.gplsi.es/?p=1843 La anorexia es un trastorno mental que implica graves anomalías en el comportamiento de ingesta nutricional. Este comportamiento conduce a una pérdida de peso importante, que puede provocar una desnutrición grave. En concreto, los trastornos alimentarios presentan la mayor tasa de mortalidad de todas las enfermedades mentales. La identificación temprana de la anorexia, junto con el tratamiento adecuado, mejora la velocidad de recuperación de los pacientes. En la actualidad existe una asociación fuerte y consistente entre el uso de las redes sociales y las preocupaciones alimentarias. El procesamiento del lenguaje natural, una rama de la inteligencia artificial, tiene el potencial de contribuir a la detección temprana de la anorexia en los datos textuales. Actualmente, aún queda mucho camino por recorrer en la identificación de la anorexia en los medios sociales debido al escaso número de textos disponibles y, de hecho, la mayoría de ellos se centran en el tratamiento de textos en inglés. La principal aportación de este trabajo es la aplicación de técnicas de aprendizaje de transferencia mediante modelos basados en Transformer para la detección de anorexia en tuits escritos en español. En particular, comparamos el rendimiento entre los modelos multilingües y monolingües ya disponibles, y realizamos un análisis de errores para comprender las capacidades de estos modelos para el español

Cita bibliográfica: Appl. Sci. 202111(4), 1838; https://doi.org/10.3390/app11041838

Autores: López Úbeda, Pilar | Plaza del Arco, Flor Miriam | Díaz Galiano, Manuel Carlos | Martín Valdivia, María Teresa

Enlace a publicación: https://www.mdpi.com/2076-3417/11/4/1838/htm

]]>
1843
COVID-19 detection in radiological text reports integrating entity recognition https://livinglang.gplsi.es/covid-19-detection-in-radiological-text-reports-integrating-entity-recognition/ Wed, 23 Dec 2020 12:45:00 +0000 https://livinglang.gplsi.es/?p=1839 El diagnóstico de COVID-19 suele basarse en la prueba PCR que utiliza imágenes radiológicas, principalmente la Tomografía Computarizada (TC) de tórax para la evaluación de la afectación pulmonar por COVID-19. Sin embargo, los informes radiológicos textuales también contienen información relevante para determinar la probabilidad de presentar signos radiológicos de COVID-19 que afecten a los pulmones.

El desarrollo de sistemas de detección automática de COVID-19 basados en técnicas de Procesamiento del Lenguaje Natural (PLN) podría ser de gran ayuda para apoyar a los clínicos y detectar trastornos relacionados con COVID-19 dentro de los informes radiológicos. En este trabajo proponemos un sistema de clasificación de textos basado en la integración de diferentes fuentes de información.

El sistema puede utilizarse para predecir automáticamente si un paciente tiene o no hallazgos radiológicos consistentes con COVID-19 sobre la base de informes radiológicos de TAC de tórax. Para llevar a cabo nuestros experimentos utilizamos 295 informes radiológicos de estudios de TC de tórax proporcionados por la clínica ”HT médica”. Todos ellos son solicitudes radiológicas con sospecha de afectación torácica por COVID-19. Para entrenar nuestro sistema de clasificación de textos aplicamos enfoques de aprendizaje automático y reconocimiento de entidades nombradas.

El sistema toma como entrada dos fuentes de información: el texto del informe radiológico y los trastornos relacionados con COVID-19 extraídos de SNOMED-CT. El mejor sistema se entrena mediante SVM y los resultados de referencia alcanzan un 85% de precisión en la predicción de la afectación pulmonar por COVID-19, lo que ya ofrece valores competitivos difíciles de superar. Además, aplicamos información mutua para integrar la información de mejor calidad extraída de SNOMED-CT. De este modo, logramos una precisión de alrededor del 90%, mejorando los resultados de referencia en 5 puntos.

Cita bibliográfica:  Computers in Biology and Medicine Volume 127, December 2020, 104066 https://doi.org/10.1016/j.compbiomed.2020.104066

Autores: López Úbeda, Pilar | Díaz Galiano, Manuel Carlos | Martín Noguerol, Teodoro | Luna, Antonio | Ureña López, L. Alfonso | Martín Valdivia, María Teresa

Enlace a publicación: https://www.sciencedirect.com/science/article/pii/S0010482520303978

]]>
1839
SINAI at SemEval-2020 Task 12: Offensive language identification exploring transfer learning models https://livinglang.gplsi.es/sinai-at-semeval-2020-task-12-offensive-language-identification-exploring-transfer-learning-models/ Sat, 12 Dec 2020 12:16:16 +0000 https://livinglang.gplsi.es/?p=1831 Este documento describe la participación del equipo del SINAI en la tarea 12: OffensEval 2: Multilingual Offensive Language Identification in Social Media. En particular, la participación en la subtarea A en inglés que consiste en identificar tuits como ofensivos o no ofensivos. Preprocesamos el conjunto de datos en función de las características lingüísticas utilizadas en las redes sociales.

Cita Bibliográfica: International Workshop on Semantic Evaluation 2020

Autores: Plaza del Arco, Flor Miriam| Molina González, M. Dolores | Ureña López, L. Alfonso | Martín Valdivia, María Teresa

URL:
https://www.aclweb.org/anthology/2020.semeval-1.211.pdf

]]>
1831
Overview of TASS 2020: Introducing Emotion Detection https://livinglang.gplsi.es/overview-of-tass-2020-introducing-emotion-detection/ Mon, 23 Nov 2020 12:39:56 +0000 https://livinglang.gplsi.es/?p=1837 La Tarea de Análisis Semántico en la SEPLN (tarea TASS dentro del taller IberLEF 2020) tuvo lugar el 22 de septiembre, alcanzando su novena edición. Debido a la pandemia de COVID-19, el número de participantes
es menor en comparación con las campañas anteriores. Además, los organizadores decidieron celebrarlo a distancia. En esta edición se organizó de nuevo la clásica subtarea de clasificación de la polaridad. Como novedad, se propuso una segunda subtarea propuesta para fomentar la investigación en la detección de emociones de textos en español sobre un nuevo conjunto de datos. Este documento resume los diferentes enfoques de los equipos que participaron, las ideas clave de sus sistemas y los resultados obtenidos para todas las soluciones propuestas.

Cita bibliográfica: Iberian Languages Evaluation Forum (IberLEF 2020) co-located with 36th Conference of the Spanish Society for Natural Language Processing (SEPLN 2020)

Autores: García Vega, Manuel | Díaz Galiano, Manuel Carlos | García Cumbreras, Miguel Á. | Montejo Ráez, Arturo | Jiménez Zafra, Salud María | Martínez Cámara, Eugenio | Aguilar, César Antonio | Sobrevilla Cabezudo, Marco Antonio | Chiruzzo, Luis | Moctezuma, Daniela

Enlace a publicación: http://ceur-ws.org/Vol-2664/tass_overview.pdf

]]>
1837
Exploiting discourse structure of traditional digital media to enhance automatic fake news detection https://livinglang.gplsi.es/exploiting-discourse-structure-of-traditional-digital-media-to-enhance-automatic-fake-news-detection/ Fri, 20 Nov 2020 17:06:36 +0000 https://livinglang.gplsi.es/?p=1796 Este artículo presenta una arquitectura novedosa para hacer frente a la detección automática de noticias falsas. La arquitectura incide en la estructura del discurso de las noticias en los medios digitales tradicionales y se basa en dos premisas. Primero, las noticias falsas tienden a mezclar información verdadera y falsa con el propósito de confundir a los lectores. En segundo lugar, esta investigación se centra en las noticias falsas entregadas en los medios digitales tradicionales, por lo que nuestro enfoque considera la influencia de la estructura periodística de las noticias y la forma en que los periodistas tienden a introducir el contenido esencial en una noticia –utilizando respuestas 5W1H–. Considerando ambas premisas, esta propuesta trata los componentes de la noticia por separado porque algunos pueden ser verdaderos o falsos, en lugar de considerar el valor de veracidad del artículo como una unidad. Se propone una arquitectura de dos capas, capas Estructura y Veracidad. Para demostrar la validez de la propuesta, se creó un nuevo conjunto de datos y se anotó con un nuevo esquema de anotación de grano fino (FNDeepML) que considera los diferentes elementos del documento de noticias y su veracidad. Debido a la gravedad de la crisis pandémica COVID-19, la salud es el dominio elegido y el español es el idioma utilizado para validar la arquitectura, dada la falta de investigación en este idioma. Sin embargo, la propuesta se puede aplicar a cualquier otro idioma o dominio. El rendimiento de la capa de veracidad de nuestra propuesta, que tiene en cuenta la estructura tradicional del artículo de noticias y la anotación 5W1H, es capaz de ofrecer un resultado de F= 0,807. Esto representa una fuerte mejora en comparación con la línea de base, que utiliza todo el documento con un solo valor de veracidad, obteniendo F= 0,605. Estos hallazgos validan la idoneidad y eficacia de nuestro enfoque.

Cita Bibliográfica: https://doi.org/10.1016/j.eswa.2020.114340

Autores: Bonet-Jover Alba | Piad-Morffis, Alejandro | Saquete, Estela |  Martínez-Barco, Patricio | Carcía-Cumbreras, Miguel Ángel

URL: https://www.sciencedirect.com/science/article/pii/S0957417420310277

]]>
1796
Comparing pre-trained language models for Spanish hate speech detection https://livinglang.gplsi.es/comparing-pre-trained-language-models-for-spanish-hate-speech-detection/ Wed, 14 Oct 2020 11:28:03 +0000 https://livinglang.gplsi.es/?p=1834 Hoy en día, debido a los grandes contenidos incontrolados que se publican a diario en la red, también ha aumentado enormemente la difusión de la incitación al odio en todo el mundo. Las redes sociales, los blogs y los foros comunitarios son ejemplos en los que la gente puede comunicarse libremente. Sin embargo, la libertad de expresión no siempre es respetuosa, ya que a veces se utiliza un lenguaje ofensivo o insultante. Las empresas de medios sociales suelen confiar en los usuarios y en los moderadores de contenidos para denunciar este tipo de contenidos. Sin embargo, debido a la gran cantidad de contenidos que se generan cada día en la Red, se necesitan sistemas automáticos basados en técnicas de Procesamiento del Lenguaje Natural para identificar el lenguaje abusivo en línea. Hasta la fecha, la mayoría de los sistemas desarrollados para combatir este problema se centran principalmente en los contenidos en inglés, pero esta problemática es de alcance mundial y, por lo tanto, otros idiomas como el español están involucrados. En este trabajo, abordamos la tarea de identificación del discurso de odio en español en las redes sociales y proporcionamos una comprensión más profunda de las capacidades de las nuevas técnicas basadas en el aprendizaje automático. En particular, comparamos el rendimiento de los métodos de Deep Learning con modelos lingüísticos recientemente preentrenados basados en Transfer Learning, así como con modelos de aprendizaje automático tradicionales. Nuestra principal contribución es la obtención de resultados prometedores en español aplicando modelos lingüísticos preentrenados multilingües y monolingües como BERT, XLM y BETO.

Cita bibliográfica: Expert Systems with Applications. Volume 166, 15 March 2021, 114120 https://doi.org/10.1016/j.eswa.2020.114120

Autores: Plaza del Arco, Flor Miriam| Molina González, M. Dolores | Ureña López, L. Alfonso | Martín Valdivia, María Teresa

Enlace a publicación: https://www.sciencedirect.com/science/article/pii/S095741742030868X

]]>
1834
SINAI at CLEF eHealth 2020: testing different pre-trained word embeddings for clinical coding in Spanish https://livinglang.gplsi.es/sinai-at-clef-ehealth-2020-testing-different-pre-trained-word-embeddings-for-clinical-coding-in-spanish/ Fri, 25 Sep 2020 12:16:42 +0000 https://livinglang.gplsi.es/?p=1847 Este artículo describe el sistema presentado por el equipo SINAI para la tarea de extracción de información multilingüe del CLEF eHealth Lab 2020. Esta tarea se centra en la asignación automática de de los códigos de la Clasificación Internacional de Enfermedades (CIE) a textos relacionados con la salud en español. Nuestra propuesta sigue un enfoque basado en el aprendizaje profundo donde hemos utilizado la variante bidireccional de una red de memoria a largo plazo (LSTM) junto con una capa de decodificación de campos aleatorios condicionales apilados (CRF) apilados (BiLSTM+CRF). El objetivo de los experimentos realizados era probar el rendimiento de diferentes incrustaciones de palabras preentrenadas para reconocer diagnósticos y procedimientos en textos clínicos. El principal La principal conclusión fue que la combinación de incrustaciones de palabras podría ser una estrategia útil para aplicar a los enfoques basados en el aprendizaje profundo, aunque las incrustaciones combinadas combinadas no pertenezcan al ámbito médico. Las mejores puntuaciones MAP logradas fueron de 0,314 y 0,293 para las subtareas CodiEsp-D y CodiEsp-P, respectivamente.

Cita bibliográfica: Working Notes of Conference and Labs of the Evaluation (CLEF) Forum.

Autores: Perea Ortega, José M | López Úbeda, Pilar | Díaz Galiano, Manuel Carlos | Martín Valdivia, María Teresa | Ureña López, L. Alfonso

Enlace a publicación: http://ceur-ws.org/Vol-2696/paper_117.pdf

]]>
1847
SINAI at eHealth-KD Challenge 2020: Combining Word Embeddings for Named Entity Recognition in Spanish Medical Records https://livinglang.gplsi.es/sinai-at-ehealth-kd-challenge-2020-combining-word-embeddings-for-named-entity-recognition-in-spanish-medical-records/ Wed, 23 Sep 2020 12:38:19 +0000 https://livinglang.gplsi.es/?p=1852 Este artículo describe el sistema presentado por el grupo de investigación SINAI al reto eHealth-KD en IberLEF 2020. Se definieron dos subtareas principales para el descubrimiento de conocimiento en la historia clínica española el reconocimiento de entidades y la extracción de relaciones. En el campo del Procesamiento del Lenguaje Natural (PLN), el Reconocimiento de
En el campo del Procesamiento del Lenguaje Natural (PLN), el Reconocimiento de Entidades Nombradas (NER) puede formularse como un problema de etiquetado de secuencias en el que el texto se trata como una secuencia de palabras que deben etiquetarse con etiquetas lingüísticas. Dado que los enfoques más avanzados para el etiquetado de secuencias suelen utilizar redes neuronales recurrentes (RNN), nuestra propuesta emplea una red neuronal BiLSTM+CRF en la que se combinan diferentes incrustaciones de palabras como entrada a la arquitectura. De este modo, podemos de diferentes tipos de incrustación de palabras para la tarea de NER en las historias clínicas españolas de los registros médicos españoles: incrustaciones médicas generadas por nosotros mismos, incrustaciones no médicas contextualizadas y médicos preentrenados basados en transformadores. Los resultados obtenidos para la tarea de reconocimiento de entidades alcanzaron la puntuación F1 más alta entre todos los participantes, mientras que los obtenidos para la tarea de extracción de relaciones muestran que el enfoque propuesto necesita ser explorado más a fondo.

Cita bibliográfica: Proceedings of the Iberian Languages Evaluation Forum (IberLEF 2020)

Autores: López Úbeda, Pilar | Perea Ortega, José Manuel | Díaz Galiano, Manuel Carlos | Martín Valdivia, María Teresa | Ureña López, L. Alfonso

URL:
https://www.scopus.com/record/display.uri?eid=2-s2.0-85092254034&origin=inward&txGid=50ec3bffc86ecd224db5ab4b908778f5

]]>
1852