En los últimos años la detección de las emociones en el texto se ha vuelto más popular debido a su potencial aplicación en campos como la psicología, el marketing, las ciencias políticas, y la Inteligencia Artificial, entre otros. Mientras que la minería de opiniones es una tarea consolidada con muchos conjuntos de datos estándar con unas metodologías bien definidas, la minería de emociones ha recibido menos atención debido a su complejidad. En particular, los recursos anotados con emociones disponibles no son suficientes. Para poder abordar esta escasez, en este artículo presentamos un corpus multilingüe basado en distintos eventos que tuvieron lugar en abril de 2019. Para ello, hemos recopilado tweets de la plataforma Twitter y se han anotado con siete emociones, seis emociones básicas de Ekman más la categoría de “emoción neutral u otra”. Finalmente, se obtiene un corpus de un total de 8.409 tweets en español y 7.303 tweets en inglés. Además, cada tweet también ha sido etiquetado como ofensivo o no ofensivo. En el artículo mostramos algunas estadísticas lingüísticas sobre el conjunto de datos para observar la diferencia entre los angloparlantes y los hispano parlantes cuando expresan emociones relacionadas con los mismos eventos. Además, para validar la efectividad del conjunto de datos, proponemos un enfoque de aprendizaje automático para detectar automáticamente las emociones en los tweets de ambos idiomas; inglés y español.
Cita Bibliográfica: LREC 2020, Twelfth International Conference on Language Resources and Evaluation (pp. 1-7). European Language Resources Association (ELRA).
Autores: Plaza del Arco, Flor Miriam | Srapparava, Carlo | Ureña López, L. Alfonso |Martín Valdivia, M. Teresa
URL: https://www.aclweb.org/anthology/2020.lrec-1.186/
Tareas relacionadas:
- (En construcción)