Corpora Annotated with Negation: An Overview

La negación es un fenómeno lingüístico universal con un gran impacto cualitativo en las aplicaciones relacionadas con el Procesamiento del Lenguaje Natural. La disponibilidad de corpus anotados con negación es esencial para entrenar sistemas de procesamiento de la negación. En la actualidad, la mayoría de los corpus se han anotado para el inglés, pero la presencia de otros idiomas en Internet, como el chino o el español, es cada vez mayor. En este estudio, presentamos una revisión de los corpus anotados con información sobre la negación en los distintos idiomas con el objetivo de evaluar qué aspectos de la negación han sido anotados y si los corpus son compatibles o no. Tras el análisis realizado llegamos a la conclusión de que es muy difícil fusionar los corpus existentes porque hay diferencias en los esquemas de anotación utilizados y, lo que es más importante, en las directrices de anotación: la forma en la que cada corpus ha sido tokenizado y los elementos de negación que han sido anotados. A diferencia de lo que ocurre con otras tareas consolidadas, como el etiquetado de roles semánticos o el análisis sintáctico, en el caso de la negación no existe un esquema de anotación estándar, ni directrices, lo que dificulta el progreso en su tratamiento.

Cita Bibliográfica: Computational Linguistics, 46(1), 1-52

Autores: Jiménez Zafra, Salud María | Morante, Roser | Martín Valdivia, M. Teresa | Ureña López, L. Alfonso

URL: https://doi.org/10.1162/COLI_a_00371

Tareas relacionadas:

(En construcción)

Comparte esto:

Publicaciones relacionadas

From Unstructured Data to Narrative Abstractive Summaries

An Integrated Approach to Biomedical Term Identification Systems

SINAI at eHealth-KD Challenge 2020: Combining Word Embeddings for Named Entity Recognition in Spanish Medical Records