Módulo 3

Diseño de Técnicas y Herramientas Basadas en HLT

La construcción eficiente de modelos de lenguaje humano requiere el uso de una serie de técnicas y herramientas dirigidas a:

  1. La construcción de recursos que crearán la base del modelo y entrenarán los sistemas de aprendizaje automático
  2. La construcción de los sistemas que utilizará los modelos de lenguaje para descubrir y confrontar las relaciones existentes entre las entidades (individuales o grupos), así como predecir el futuro comportamiento entre ellas.

Este módulo incluye las siguientes tareas específicas:

Tarea 3.1. Tecnologías para el Descubrimiento de Perfiles de Usuarios y Comunidades

Además de identificar las relaciones entre entidades, este proyecto propone analizar “supraentidades”, es decir, comunidades de entidades que actuarían como la misma entidad en un proceso de comunicación. Este concepto sociométrico está dirigido a la lingüística, desarrollando modelos asociados a grupos sociales. Por lo tanto, esta tarea utilizará diferentes técnicas para la definición de perfiles de usuario y su agregación en comunidades. Específicamente, se estudiarán ampliamente las técnicas basadas en la similitud de contenido y el análisis de metadatos del perfil del usuario. También se estudiarán las relaciones semánticas (roles semánticos) entre individuos y entidades digitales en su contexto. Por otro lado, se introducirán y evaluarán diferentes técnicas sociométricas para el análisis del lenguaje dentro de las comunidades, mediante la detección de relaciones informales entre individuos. También examinaremos el uso de la agrupación y clasificación para definir los perfiles de comunidad a partir de perfiles individuales.

Por último, el equipo trabajará en la caracterización y detección de diferentes fenómenos producidos cuando un individuo está inmerso en un grupo, como el sesgo de confirmación, donde el individuo tiende a favorecer la información que confirma sus ideas preconcebidas y, por lo tanto, la de un grupo; falso sesgo de consenso, donde ciertas ideas son confirmadas por un grupo de opinión de la misma tendencia, y por lo tanto el individuo tiende a creer que todos piensan lo mismo que ellos; o incluso sesgo de memoria, que es un tipo de sesgo cognitivo en el que el individuo tiende a distorsionar el contenido de la memoria en favor de ideas grupales o preconcebidas.

Tarea 3.2. Modelado del Lenguaje

El objetivo de esta tarea consiste en construir modelos de lenguaje y determinar sus características lingüísticas cuando se utilizan en los diferentes escenarios previamente indicados (violencia, acoso, mentira, depresión, ideología, racismo, phishing, entre otros) por entidades digitales. Se determinarán las características morfológicas, léxicas, sintácticas, semánticas y pragmáticas, ya que el contexto es esencial para modelar el lenguaje utilizado por las entidades digitales y las relaciones semánticas producidas entre ellas. Parte de este contexto es el marco espacio-tiempo en el que opera una entidad o relación y su evolución en el tiempo. Otras características muy importantes como las características cognitivas, sociales, culturales y afectivas también deben tenerse en cuenta para el objetivo del proyecto. La mayoría de los estudios tienden a centrarse en el léxico y la semántica (el uso de palabras y sus significados), o la sintaxis (el uso de estructuras de oraciones). Sin embargo, el discurso y la pragmática (el uso del lenguaje para la comunicación) no se han estudiado tan extensamente, y sus características deben incorporarse al modelo.

Una vez que se hayan identificado los modelos de lenguaje, el equipo utilizará los nuevos recursos generados en la Tarea 2.4 o adaptará recursos preexistentes para aprender estos modelos utilizando diferentes técnicas de aprendizaje automático (ML). En este sentido, utilizaremos tanto los enfoques tradicionales de ML que han demostrado ser útiles en este tipo de tarea, como las técnicas más nuevas basadas en Deep Learning (DL) o Word Embeddings (WE).

Tarea 3.3. Detección de Relaciones Semánticas entre Entidades

Esta tarea tiene como objetivo definir y desarrollar algoritmos y técnicas para detectar posibles relaciones semánticas entre diferentes entidades digitales. Estos algoritmos tienen en cuenta las características comunes y el contexto en el que se analizaron, que se identificaron en la Tarea 2.2. Para hacer esto, se utilizarán técnicas de similitud semántica para generar diferentes interpretaciones basadas en reglas o patrones de lenguaje que determinan la identificación de relaciones y el mapeo de entidades digitales. Esta tarea también explorará las redes semánticas de entidades digitales para que podamos estudiar diferentes mecanismos y estructuras, no solo para la detección de relaciones, sino también para la identificación de grupos de entidades semánticamente relacionadas.

Tarea 3.4. Técnicas de Detección de Veracidad, Análisis de Emociones y Subjetividad

El objetivo de esta tarea es estudiar y desarrollar técnicas que permitan establecer medidas de credibilidad para determinar la veracidad de la información, contempladas desde tres puntos de vista diferentes: la credibilidad de los medios de comunicación (canal), contenido y fuente de información. La credibilidad del canal hace referencia a cómo los usuarios perciben un medio particular de comunicación (prensa, televisión, blogs y redes sociales). En este proyecto nos centraremos principalmente en las comunicaciones que tienen lugar a través de Internet. La credibilidad del mensaje se refiere a la percepción de veracidad del mensaje, teniendo en cuenta factores como la calidad o la precisión. Este problema puede abordarse mediante el análisis de las bases de conocimiento almacenadas por las entidades y las relaciones entre ellas. Por último, la credibilidad de la fuente de información se puede determinar mediante el estudio de características como la reputación (por ejemplo, el número de seguidores en las redes sociales), la popularidad o la probabilidad de credibilidad mediante verificación de hechos (rumores, leyendas urbanas, engaños, cartas en cadena, declaraciones políticas) utilizando fuentes como Snopes, FactCheck y PolitiFact.

Tarea 3.5. Detección de Información Falsa, Incompleta, No Relacionada, Mal Contextualizada o Fake News

Las medidas de credibilidad con respecto a los medios, mensajes y fuentes de información expuestas en la última tarea se utilizarán para clasificar la información por grados de veracidad. De esta manera, en reacción a la aparición de nueva información sobre las entidades digitales ya contenidas en nuestro repositorio y mediante el análisis de las relaciones previamente identificadas, podemos determinar si esta nueva información está incompleta o no, si hay información contradictoria, si el contexto no se corresponde con las noticias o simplemente si estamos tratando con fake news con fines ideológicos o económicos. En esta tarea, también aplicaremos técnicas de la tarea anterior para la verificación automática de hechos, generando conclusiones tomadas de las fuentes.

Tarea 3.6. Técnicas para la Predicción de Futuros Comportamientos

Construir un repositorio de entidades digitales y las diferentes relaciones entre ellas nos permite recopilar una gran cantidad de datos individualizados sobre las interacciones entre estas entidades a lo largo del tiempo. El análisis de diferentes relaciones específicas, la agrupación de entidades y el contraste de las relaciones existentes nos permite sacar conclusiones interesantes sobre el comportamiento de un colectivo en particular, e incluso predecir el comportamiento basado en el estudio de situaciones anteriores. Para hacer esto, estudiaremos diferentes alternativas tales como técnicas de análisis y rutas gráficas, el análisis de series de tiempo o la representación de información en el tiempo, combinadas con las técnicas de confrontación de relaciones previamente estudiadas.

Hitos

  • Desarrollo y recopilación de diferentes tecnologías para detectar perfiles de usuario y comunidades.
  • Desarrollo y recopilación de técnicas para contruir modelos de lenguaje basados en características morfológicas, léxicas, sintácticas, semánticas y pragmáticas.
  • Desarrollo y recopilación de técnicas para detectar y representar relaciones semáticas entre entidades.
  • Desarrollo y recopilación de técnicas para la detección de veracidad, análisas de emociones y subjetividad
  • Desarrollo y aplicación de mecanismos para detectar información falsa, incompleta, no relacionada, mal contextualizada o fabricada a partir de un repositorio de entidades y relaciones obtenidas previamente.
  • Desarrollo y aplicación de técnicas para predecir comportamientos futuros a partir de un repositorio de entidades y relaciones previamente obtenidas.