Módulo 2

Creación de recursos

Este módulo determinará los dominios y especificará los escenarios en cada ámbito de estudio. Una vez que se han identificado los dominios y los escenarios, se deben identificar las relaciones semánticas entre las entidades digitales, incluidas, entre otras, las relaciones clásicas y específicas en cada entorno, así como las relaciones espacio-temporales. Se identificarán y especificarán diferentes fuentes de información, junto con los recursos necesarios para la integración en los sistemas. Este módulo consta de las siguientes tareas:

Tarea 2.1. Identificación y Descripción de Dominios y Escenarios

Esta tarea identificará los dominios estudiados a lo largo del resto del proyecto, incluyendo: biomedicina, política, turismo, ciberseguridad, administración pública, etc. Se identificarán y especificarán escenarios potencialmente relevantes, donde la forma en que el uso del lenguaje puede desempeñar un papel importante dentro de cada dominio, incluyendo: violencia, acoso, mentiras, depresión, ideología, racismo, etc. Se preparará un caso de uso para cada dominio y escenario y se utilizará para contemplar las preguntas a resolver, la terminología y cualquier posible excepción.

Tarea 2.2. Indentificación de Fuentes de Información

Esta tarea se centrará en identificar las fuentes de datos e información requeridas para el proyecto, con respecto a los diferentes dominios y escenarios. Esta identificación incluye una selección de fuentes aplicables a los casos de uso designados de la web social y los medios de comunicación, información de la administración pública, etc. También llevaremos a cabo un estudio y análisis exhaustivo de los datos enlazados abiertos de varios sitios web. Esto proporcionará una valiosa fuente de información, y en muchos casos de gran calidad, y debe incorporarse e integrarse en los sistemas desarrollados como un valor agregado.

Tarea 2.3. Identificación de Relaciones entre Entidades Digitales

El tratamiento adecuado de las interacciones entre entidades digitales requiere un estudio previo del tipo de relaciones semánticas subyacentes entre ellas. Algunos ejemplos son las relaciones dependientes (para que exista la identidad A, la identidad B debe existir), las relaciones de dominio (el valor de la identidad A determina el dominio de la identidad B) y las relaciones lógicas (exclusión mutua, por ejemplo), entre otras. Un análisis detallado de las fuentes de información, textos, documentos digitales, metadatos y otras fuentes dentro de la identidad digital nos permitirá definir y caracterizar estas relaciones básicas.

También debemos considerar e identificar las relaciones que tienen una semántica dependiente del dominio: ¿qué papel juega una identidad en el contexto en el que aparece? Por ejemplo, en el ámbito de las verdades posteriores: ¿Qué identidad es la fuente de las noticias y en qué identidad se enfocan las noticias? Por lo tanto, esta tarea también establecerá los mecanismos que permiten incluir futuras relaciones dependientes del dominio. Las relaciones y mecanismos básicos independientes del dominio para la inclusión de nuevas relaciones en el dominio deben considerarse en estructuras ontológicas o representaciones del conocimiento, y se definirán adecuadamente.

Tarea 2.4. Creación de Recursos para los Escenarios Identificados

Esta tarea está dirigida a la creación de diferentes recursos para el desarrollo e implementación de los escenarios identificados en la Tarea 2.1. Entre otros aspectos, el trabajo incluirá la generación de repositorios de léxicos, corpus y metadatos con respecto a las entidades digitales.

En el caso de los léxicos, se prestará especial atención a la creación de estos recursos en español. En general, ya existen recursos para el idioma inglés. Sin embargo, cuando se implementan sistemas reales, cada idioma requiere sus propios recursos. Este es el caso de los léxicos emocionales; actualmente no hay léxicos españoles de calidad. Además, estos recursos deben adaptarse a cada dominio y escenario específicos para desarrollar sistemas con cierto grado de éxito. Se generarán corpus y se definirán anotaciones para cada corpus. Los equipos no solo considerarán la posibilidad de crear anotaciones manualmente, sino que también considerarán y estudiarán métodos para la creación semiautomática cuando obtener un gran volumen de muestra sea muy costoso. Este será uno de los principales desafíos de esta tarea, ya que es una nueva línea de estudio que requiere una investigación más extensa. El desarrollo de estas metodologías de anotación semiautomáticas nos permitirá superar el obstáculo principal en el entrenamiento de sistemas basados en corpus al eliminar los costos de recursos humanos que conlleva la anotación manual.

Finalmente, los equipos trabajarán en la construcción de repositorios a partir de los metadatos obtenidos de los registros de identidad digital, tomados específicamente de la web social, y que constituirán la materia prima para el modelado de los perfiles de usuario. Para hacer esto, los parámetros clave deben caracterizarse para cada identidad. Esta tarea también considerará cualquier implicación con respecto al cumplimiento de la ley sobre protección de datos y la posible necesidad de anonimato.

Hitos

Identificación y descripción de los dominios y escenarios del proyecto.
Identificación de las relaciones básicas entre entidades digitales y mecanismos de reprepsentación del conocimiento.
Identificación y especicificación de las fuentes de información.
Establecimiento de mecanismos para la representación de nuevas relaciones dependientes del dominio.
Recopilación y generación de recursos necesarios para caraterizar los dominios y escenarios identificados: repostorios léxicos, corpus y metadatos para entidades digitales.