Comparing pre-trained language models for Spanish hate speech detection

Publicaciones

Hoy en día, debido a los grandes contenidos incontrolados que se publican a diario en la red, también ha aumentado enormemente la difusión de la incitación al odio en todo el mundo. Las redes sociales, los blogs y los foros comunitarios son ejemplos en los que la gente puede comunicarse libremente. Sin embargo, la libertad de expresión no siempre es respetuosa, ya que a veces se utiliza un lenguaje ofensivo o insultante. Las empresas de medios sociales suelen confiar en los usuarios y en los moderadores de contenidos para denunciar este tipo de contenidos. Sin embargo, debido a la gran cantidad de contenidos que se generan cada día en la Red, se necesitan sistemas automáticos basados en técnicas de Procesamiento del Lenguaje Natural para identificar el lenguaje abusivo en línea. Hasta la fecha, la mayoría de los sistemas desarrollados para combatir este problema se centran principalmente en los contenidos en inglés, pero esta problemática es de alcance mundial y, por lo tanto, otros idiomas como el español están involucrados. En este trabajo, abordamos la tarea de identificación del discurso de odio en español en las redes sociales y proporcionamos una comprensión más profunda de las capacidades de las nuevas técnicas basadas en el aprendizaje automático. En particular, comparamos el rendimiento de los métodos de Deep Learning con modelos lingüísticos recientemente preentrenados basados en Transfer Learning, así como con modelos de aprendizaje automático tradicionales. Nuestra principal contribución es la obtención de resultados prometedores en español aplicando modelos lingüísticos preentrenados multilingües y monolingües como BERT, XLM y BETO.

Cita bibliográfica: Expert Systems with Applications. Volume 166, 15 March 2021, 114120 https://doi.org/10.1016/j.eswa.2020.114120

Autores: Plaza del Arco, Flor Miriam| Molina González, M. Dolores | Ureña López, L. Alfonso | Martín Valdivia, María Teresa

Enlace a publicación: https://www.sciencedirect.com/science/article/pii/S095741742030868X