Flor Miriam Plaza del Arco – Living-Lang https://livinglang.gplsi.es Tecnologías del lenguaje humano para entidades digitales vivas Fri, 10 Jul 2020 10:58:39 +0000 es hourly 1 https://wordpress.org/?v=6.1.1 https://i0.wp.com/livinglang.gplsi.es/wp-content/uploads/2020/07/cropped-Logo-Living-Lang.png?fit=32%2C32&ssl=1 Flor Miriam Plaza del Arco – Living-Lang https://livinglang.gplsi.es 32 32 171873247 Detecting Misogyny and Xenophobia in Spanish Tweets Using Language Technologies https://livinglang.gplsi.es/detecting-misogyny-and-xenophobia-in-spanish-tweets-using-language-technologies/ Tue, 07 Jul 2020 08:26:17 +0000 https://livinglang.gplsi.es/?p=1688 Hoy en día, la misoginia y la xenofobia son algunos de los problemas sociales más importantes. Con el aumento del uso de las redes sociales, este sentimiento de odio hacia las mujeres y los inmigrantes se expresa con una mayor facilidad y, en consecuencia, puede tener efectos dañinos sobre el resto de usuarios de estas plataformas. Por esta razón, es importante desarrollar sistemas capaces de detectar automáticamente publicaciones en las que se promueve el discurso del odio. En este articulo, analizamos el discurso de odio hacia las mujeres e inmigrantes en tweets escritos en español realizando experimentos de clasificación a través de distintos enfoques. Además, en este artículo describimos los recursos lingüísticos que hemos generado para la detección del discurso de odio en español.

Cita Bibliográfica: ACM Trans. Internet Technol. 20, 2, Article 12 (March 2020)

Autores: Plaza del Arco, Flor Miriam| Molina González, M. Dolores | Ureña López, L. Alfonso | Martín Valdivia, María Teresa

URL: https://dl.acm.org/doi/10.1145/3369869

Tareas relacionadas:

  • (En construcción)
]]>
1688
Celebrity Profiling on Twitter using Sociolinguistic Features https://livinglang.gplsi.es/celebrity-profiling-on-twitter-using-sociolinguistic/ Tue, 07 Jul 2020 08:23:54 +0000 https://livinglang.gplsi.es/?p=1676 Las redes sociales son un escenario innovador para las celebridades porque les permiten llegar a una audiencia más amplia con una frecuencia mucho mayor que usando los medios tradicionales. Estas plataformas les permiten mejorar, o a veces deteriorar, sus carreras mediante es establecimiento de relaciones más estrechas con sus fans y la adquisición de otros nuevos. De hecho, las redes han promovido el surgimiento de un nuevo tipo de celebridades que sólo existe en el mundo digital. Ser capaz de caracterizar a las celebridades que son más activas en las redes sociales, como Twitter, da una enorme oportunidad de identificar cuál es su nivel real de fama, cuál es su relevancia para un grupo de edad, o un género u ocupación específicos. Estos hechos pueden enriquecer la toma de decisiones, especialmente en la publicidad y el marketing. Para lograr este objetivo, este artículo presenta una novedosa estrategia para la caracterización del perfil de las celebridades en Twitter basada en la generación de características que sirven de entrada a un conjunto de clasificadores. Específicamente, hemos experimentado con cuatro clasificadores que describen el nivel de fama, el género, el nacimiento, la fecha, y la posible ocupación de una celebridad. El conjunto de dato de entrenamiento y prueba se obtuvo como parte de nuestra participación en la tarea de PAN 2019 celebrada en el congreso CLEF. Los resultados de cada clasificador se muestran incluyendo el análisis de qué características son más relevantes y qué técnicas de clasificación son más útiles para la tarea.

Cita Bibliográfica: PAN at CLEF 2019, 10th International Conference and Labs of the Evauation Forum.

Autores:  Sandoval Moreno, L. Gabriel | Puertas, Edwin | Plaza del Arco, Flor Miriam | Pomares Quimbaya , Alexandra | Alvarado Valencia, Jorge Andres | Ureña López, L. Alfonso

URL: http://ceur-ws.org/Vol-2380/paper_175.pdf

Tareas relacionadas:

  • (En construcción)
]]>
1676
Bots and Gender Profiling on Twitter using Sociolinguistic Features https://livinglang.gplsi.es/bots-and-gender-profiling-on-twitter-using-sociolinguistic-features/ Tue, 07 Jul 2020 08:23:13 +0000 https://livinglang.gplsi.es/?p=1681 Lamentablemente, en las redes sociales, los bots son cada vez más comunes porque las personas malintencionadas han visto su utilidad para difundir mensajes falsos, propagar rumores e incluso manipular la opinión pública. Aunque el texto generado por los usuarios en las redes sociales es una gran fuente de información que puede utilizarse para identificar diferentes aspectos de sus autores, el hecho de no poder reconocer qué usuarios son realmente humanos y cuáles no, es un gran inconveniente. En este trabajo, describimos las características de nuestro modelo de clasificación multilingüe presentado para el PAN2019 que es capaz de reconocer a los bots de los humanos, y a las mujeres de los hombres. En esta solución extrajimos 18 características de los mensajes de los usuarios y aplicamos un algoritmo de aprendizaje supervisado obteniendo resultados prometedores.

Cita Bibliográfica: PAN at CLEF 2019, 10th International Conference and Labs of the Evauation Forum.

Autores:  Puertas, Edwin | Moreno Sandoval, L. Gabriel| Plaza del Arco, Flor Miriam | Pomares Quimbaya, Alexandra |Ureña López, L. Alfonso

URL: http://ceur-ws.org/Vol-2380/paper_173.pdf

Tareas relacionadas:

  • (En construcción)
]]>
1681
Improved emotion recognition in Spanish social media through incorporation of lexical knowledge https://livinglang.gplsi.es/improved-emotion-recognition-in-spanish-social-media-through-incorporation-of-lexical-knowledge/ Tue, 07 Jul 2020 08:20:53 +0000 https://livinglang.gplsi.es/?p=1674 Las emociones juegan un rol importante en la inteligencia y el comportamiento humano y son un importante vehículo de comunicación. Por lo tanto, la integración de las emociones en los modelos computacionales pueden mejorar la interacción de los sistemas persona-ordenador. En este artículo, presentamos un estudio de diferentes enfoques de aprendizaje automático para reconocer automáticamente las emociones en mensajes escritos en español en los medios sociales. Aunque el tratamiento computacional de las emociones es más difícil que otras tareas de Análisis de Sentimientos, la línea de base de algunos algoritmos de aprendizaje automático alcanzan una precisión aceptable que demuestra que es posible abordar el problema utilizando algunas técnicas básicas del Procesamiento del Lenguaje Natural. En este estudio hemos experimentado con la integración de conocimientos de diferentes recursos léxicos afectivos concluyendo que la incorporación de estos recursos conduce a una mejora sobre la mayoría de los resultados obtenidos con los algoritmos probados. De hecho, observamos que el uso de recursos generados especialmente para el reconocimiento de emociones en otros idiomas distintos del inglés es un enfoque prometedor para mejorar los sistemas básicos de aprendizaje automático. En particular, utilizamos un recurso léxico español y observamos que siempre mejora los resultados. En el mejor de los casos, mejora el 6,15% de los resultados obtenidos usando el clasificador Naive Bayes.

Cita Bibliográfica: Future Generation Computer Systems.

Autores:  Plaza del Arco, Flor Miriam | Martín Valdivia, María Teresa | Ureña López, L. Alfonso | Mitkov, R (2019)

URL: https://www.sciencedirect.com/science/article/abs/pii/S0167739X1931163X

Tareas relacionadas:

  • (En construcción)
]]>
1674
Integrating UMLS for Early Detection of Sings of Anorexia https://livinglang.gplsi.es/integrating-umls-for-early-detection-of-sings-of-anorexia/ Tue, 07 Jul 2020 08:18:44 +0000 https://livinglang.gplsi.es/?p=1678 Los trastornos mentales son una de las principales preocupaciones de la sociedad actual. La detección temprana de los síntomas puede ayudar enormemente a las personas que sufren estas enfermedades. Hoy en día, los medios de comunicación social juegan un papel importante en la salud mental de las personas. Por lo tanto, el tratamiento de esta información mediante tecnologías de PLN puede aplicarse para detectar automáticamente problemas mentales como los trastornos asociados a la alimentación. En este artículo, describimos nuestra participación en CLEF eRisk 2019. En particular, hemos participado en la Tarea 1: Detección temprana de anorexia. Para ello, hemos desarrollado tres sistemas basados en aprendizaje automático. Nuestra principal contribución es el uso de recursos en nuestros sistemas como UMLS y de word embeddings. Nuestros resultados muestran que el uso de ontologías biomédicas mejora la precisión de los sistemas.

Cita Bibliográfica: eRisk at CLEF 2019, 10th International Conference and Labs of the Evauation Forum

Autores:  Plaza del Arco, Flor Miriam | López Úbeda, Pilar | Díaz Galiano, Manuel C. |Ureña López, L. Alfonso | Martín Valdivia, María Teresa

URL: http://ceur-ws.org/Vol-2380/paper_76.pdf

Tareas relacionadas:

  • (En construcción)
]]>
1678
Detecting Negation Cues and Scopes in Spanish https://livinglang.gplsi.es/detecting-negation-cues-and-scopes-in-spanish/ Tue, 07 Jul 2020 08:17:39 +0000 https://livinglang.gplsi.es/?p=1672 En este trabajo abordamos el procesamiento de la negación en español.  En primer lugar, presentamos un sistema de aprendizaje automático que procesa la negación en español. En concreto, nos centramos en dos tareas: i) detección de claves de negación e ii) identificación del ámbito de la negación. El corpus utilizado en el marco de trabajo experimental es el SFU ReviewSP-NEG. Los resultados obtenidos en la detección de claves superan los resultados del estado del arte, mientras que para la detección del ámbito este es el primer sistema que realiza la tarea para el español.  En segundo lugar, proporcionamos un análisis cualitativo de errores destinado a comprender las limitaciones del sistema y a mostrar cuáles son las claves de negación y los ámbitos que son sencillos de predecir automáticamente y cuáles presentan una mayor complejidad.

Cita Bibliográfica: LREC 2020, Twelfth International Conference on Language Resources and Evaluation (pp. 6902-6911). European Language Resources Association (ELRA).

Autores:  Jiménez Zafra, Salud María | Morante, Roser| Blanco, Eduardo | Martín Valdivia, María Teresa | Ureña López, L. Alfonso

URL: https://www.aclweb.org/anthology/2020.lrec-1.853.pdf

Tareas relacionadas:

  • (En construcción)
]]>
1672
Negation Detection for Sentiment Analysis: A Case Study in Spanish https://livinglang.gplsi.es/negation-detection-for-sentiment-analysis-a-case-study-in-spanish/ Tue, 07 Jul 2020 08:14:41 +0000 https://livinglang.gplsi.es/?p=1657 La correcta identificación de la negación es una de las tareas más importantes en el contexto del análisis de sentimientos. Para interpretar correctamente el sentimiento de una expresión particular, es necesario identificar si las palabras que forman parte de ella están en el ámbito de la negación. La mayor parte de los trabajos sobre detección de la negación se han centrado en el inglés, pero recientemente hemos visto avances que permiten la identificación precisa de la negación en otros idiomas. En este artículo, proporcionamos una visión general de los sistemas de detección de la negación y describimos una implementación de un sistema en español para la detección de claves de negación y para la identificación de su ámbito. Aplicamos este sistema a la tarea de análisis de sentimientos, confirmando que para el español también se pueden obtener mejoras con una detección precisa de la negación. Este artículo contribuye con la implementación de un sistema de detección de negación para el análisis de sentimientos en español y con un análisis detallado de errores. Se trata del primer trabajo en español en el cual un sistema de procesamiento de negación basado en aprendizaje automático es aplicado y evaluado en la tarea de análisis de sentimientos. Los métodos existentes hasta ahora han utilizado reglas de negación que no han sido evaluadas, quizás porque el primer corpus en español anotado con negación para el análisis de sentimientos se ha publicado recientemente.

Cita Bibliográfica: Special Issue on Processing Negation of the Natural Language Engineering Journal, pp. 1 – 24

Autores:  Jiménez Zafra, Salud María | Cruz Díaz, Noa P. | Taboada, Maite| Martín Valdivia, M. Teresa

URL: https://doi.org/10.1017/S1351324920000376

Tareas relacionadas:

  • (En construcción)
]]>
1657
An Integrated Approach to Biomedical Term Identification Systems https://livinglang.gplsi.es/an-integrated-approach-to-biomedical-term-identification-systems/ Tue, 07 Jul 2020 08:12:46 +0000 https://livinglang.gplsi.es/?p=1690 En este estudio se presenta una novedosa arquitectura para construir sistemas de identificación de términos biomédicos. La arquitectura combina varias fuentes de información y bases de conocimientos para proporcionar sistemas de identificación de términos biomédicos prácticos y aptos para la exploración. Se ha implementado un sistema para evidenciar la utilidad de los diferentes módulos considerados en la arquitectura. Nuestro sistema incluye la identificación de términos médicos, la recuperación de literatura especializada y la exploración de conceptos semánticos de ontologías médicas. Aplicando varias tecnologías de Procesamiento del Lenguaje Natural (PLN) hemos desarrollado un prototipo que ofrece una interfaz sencilla para ayudar a comprender la terminología biomédica especializada presente en los textos médicos. El resultado es un sistema que realiza la identificación de términos de conceptos médicos sobre cualquier documento escrito en español. Es posible realizar una selección de subconceptos utilizando los términos previamente identificados para lograr un proceso de recuperación ajustado sobre recursos como SciELO, Google Scholar y MedLine. Además, el sistema genera un gráfico conceptual que relaciona semánticamente todos los términos encontrados en el texto. Para evaluar nuestra propuesta de identificación de términos médicos, presentamos los resultados obtenidos por nuestro sistema utilizando el corpus MANTRA y comparamos su rendimiento con la herramienta Freeling-Med.

Cita Bibliográfica: Applied Sciences (ISSN: 2076-3417), vol. 10, no 5, p. 1726.

Autores: López Úbeda, Pilar | Díaz Galiano, M. Carlos | Montejo Ráez, Arturo |  Ureña López, L. Alfonso | Martín Valdivia, M.Teresa

URL: https://www.mdpi.com/2076-3417/10/5/1726

Tareas relacionadas:

  • (En construcción)
]]>
1690
Transfer learning applied to text classification in Spanish radiological reports https://livinglang.gplsi.es/transfer-learning-applied-to-text-classification-in-spanish-radiological-reports/ Tue, 07 Jul 2020 08:08:26 +0000 https://livinglang.gplsi.es/?p=1692 Los codificadores de texto pre-entrenados han avanzado rápidamente en el estado del arte en muchas tareas de Procesamiento del Lenguaje Natural (PLN). Este trabajo presenta el uso de métodos de aprendizaje de transferencia aplicados a la detección automática de códigos en los informes radiológicos en español. La asignación de códigos a un documento clínico es una tarea popular en el PLN y en el dominio biomédico. Estos códigos pueden ser de dos tipos: clasificaciones estándar (por ejemplo, ICD-10) o específico para cada clínica u hospital. En este estudio mostramos un sistema que utiliza códigos específicos de clínicas de radiología. El conjunto de datos está compuesto por 208.167 informes de radiología etiquetados por expertos con 89 códigos diferentes. El corpus ha sido evaluado con tres métodos utilizando BERT aplicado al español: BERT multilingual, BETO y XLM multilingual. Los resultados son prometedores al obtener el 70% de la puntuación en la métrica F1 con un modelo multilingüe pre-entrenado.

Cita Bibliográfica: Proceedings of the LREC 2020 Workshop on Multilingual Biomedical Text Processing (MultiligualBIO 2020)

Autores: López Úbeda, Pilar | Díaz Galiano, M. Carlos  |  Ureña López, L. Alfonso | Martín Valdivia, M. Teresa | Martín Noguerol, Teodoro | Luna, Antonio

URL: https://www.aclweb.org/anthology/2020.multilingualbio-1.5/

Tareas relacionadas:

  • (En construcción)
]]>
1692
Detection of Unexpected Findings in Radiology Reports: a Comparative Study of Machine Learning Approaches https://livinglang.gplsi.es/detection-of-unexpected-findings-in-radiology-reports-a-comparative-study-of-machine-learning-approaches/ Tue, 07 Jul 2020 08:06:27 +0000 https://livinglang.gplsi.es/?p=1694 Este estudio explora los métodos de aprendizaje automático para la detección de hallazgos inesperados en los informes de radiología en español. En lo que respecta a los informes radiológicos, los hallazgos inesperados son el conjunto de signos radiológicos identificados en un determinado examen de modalidad de imagen que cumplen dos características: no están aparentemente relacionados con los resultados esperados a priori del examen radiológico e implican una situación de emergencia o urgencia clínica que debe ser comunicada en breve al médico prescriptor o a otro especialista médico, así como al paciente, con el fin de proteger vidas y/o prevenir sucesos peligrosos. Se evalúan y comparan varios algoritmos tradicionales de clasificación de aprendizaje automático y aprendizaje profundo. Para llevar a cabo esta tarea utilizamos 5.947 informes radiológicos anónimos de la clínica “HT medica”. Los resultados sugieren que el rendimiento de los modelos de las redes neuronales convolucionales son mejores que los del aprendizaje automático tradicional. La mejor puntuación de en la métrica F1 para la identificación de un hallazgo inesperado fue del 90%. Finalmente, también realizamos un análisis de errores que nos servirá para lograr mejores resultados en futuros trabajos.

Cita Bibliográfica: Expert Systems with Applications (ISSN: 0957-4174)

Autores: López Úbeda, Pilar | Díaz Galiano, M. Carlos  |  Ureña López, L. Alfonso | Martín Valdivia, M. Teresa | Martín Noguerol, Teodoro | Luna, Antonio

URL: https://www.sciencedirect.com/science/article/pii/S0957417420304711

Tareas relacionadas:

  • (En construcción)
]]>
1694