Tecnologías de la Información y Telecomunicaciones

Desarrollan un método automático para detectar el discurso de odio en redes sociales

Un equipo de investigación de la Universidad de Jaén y de la Universidad de Murcia ha diseñado un sistema para textos en español que clasifica los mensajes dirigidos a dañar por motivos de raza, género, orientación sexual, nacionalidad o religión. El sistema combina el análisis de las características lingüísticas con redes neuronales basadas en mecanismos de atención, mejorando la precisión de los sistemas actuales. Con esta herramienta de procesamiento del lenguaje natural, se podrán agilizar los mecanismos de alerta sobre esas publicaciones y detenerlas antes de su difusión masiva.

Jaén |

20 de abril de 2022

El equipo de investigación SINAI de la Universidad de Jaén y el equipo de investigación TECNOMOD de la Universidad de Murcia han desarrollado un sistema automático de detección del discurso de odio en español en medios sociales. El modelo combina el análisis de características lingüísticas con redes neuronales basadas en mecanismos de atención, llamadas Transformers. Éstas permiten saber cuáles son los significados que más influyen sobre una palabra en concreto, útil en casos de polisemia o anáfora. De esta forma, alcanza unos resultados cercanos al 90% de precisión. El desafío de esta herramienta de procesamiento del lenguaje natural es agilizar la detección del lenguaje ofensivo para evitar su propagación masiva.

Imagen: Freekip.

La ingente cantidad de publicaciones diarias en medios sociales hace que sea imposible revisar cada comentario a mano. Para reducir el número de comentarios que deben ser revisados por expertos o incluso para el desarrollo de sistemas autónomos de detección, los investigadores proponen un modelo de identificación automática de discursos de odio destinado a frenar su dispersión.Estudios anteriores apuntan que la presencia de estos mensajes dirigidos a dañar por motivos de raza, género, orientación sexual, nacionalidad o religión en las plataformas de redes sociales se correlaciona con los delitos de odio en la vida real. “No es factible depender de la supervisión manual para detener estas palabras ofensivas. Por ello, queremos contribuir a la detección del discurso de odio en español con un modelo automático y preciso que sea más rápido ”, incide la investigadora del Grupo Sistemas Inteligentes de Acceso a la Información (SINAI) de la Universidad de Jaén Salud María Jiménez Zafra, una de las autoras del estudio.

En concreto, los investigadores proponen en su artículo ‘Evaluating feature combination strategies for hate-speech detection in Spanish using linguistic features and transformers’ publicado en la revista Complex & Intelligent Systems un método que combina un sistema de extracción de características lingüísticas diseñado para el español y modelos computacionales. “Para ello, se utiliza la plataforma denominada UMUTextStats, desarrollada por el grupo TECNOMOD de la Universidad de Murcia, que obtiene de los textos características morfológicas, pragmáticas, semánticas, sintácticas, y de corrección y estilo, que reflejan qué quiere decir un texto dado y cómo lo dice”, explica el investigador José Antonio García Díaz del grupo TECNOMOD de la Universidad de Murcia.

A esto se suma un modelo del lenguaje basado en transformers, es decir, un sistema pre-entrenado que ha aprendido cómo se relacionan las palabras, expresiones y otras características del lenguaje a partir de un gran conjunto de datos.

Textos representados

Para que el ordenador ‘entienda’ el lenguaje natural se requiere una codificación adecuada. Para ello, el texto se traduce a modelos estadísticos que capturan diversas dimensiones del lenguaje. De esta forma, los investigadores incluyen 365 rasgos de interés extraídos de la herramienta UMUTextStats organizados en distintas categorías como fonéticas, morfosintácticas, semánticas, pragmáticas, estilométricas o jerga de los medios sociales. Así se contabilizan verbos, pronombres, adverbios, frases hechas o marcadores del discurso. “En el caso específico del odio, se atiende a cuestiones relacionadas como el género, los errores ortográficos, términos inclusivos, la presencia de términos relacionados con animales (zorra, perra…) o palabras malsonantes”, comenta el catedrático de la Universidad de Murcia Rafael Valencia García.

Junto a estos métodos que atienden a la propia palabra, se entrenan redes neuronales, es decir, algoritmos que funcionan como lo hace el cerebro humano, que cuenta con áreas especializadas en ciertas tareas, y que van aprendiendo con la incorporación de nuevos datos.

El resultado de esta combinación es un sistema para el idioma español más preciso, generalizable e interpretable. “Nuestra propuesta, basada en el uso de características lingüísticas y modelos del lenguaje, supera la precisión de estudios anteriores y alcanza un 90,4 % en algunos de los experimentos”, remarca el investigador del grupo SINAI de la Universidad de Jaén Miguel Ángel García Cumbreras.

Imagen: Freekip.

Además, el modelo generado fue evaluado con un conjunto más amplio de datos. “Los estudios existentes hasta la fecha trabajan con uno o dos de los conjuntos de datos más conocidos en español como HaterNet y HatEval. Sin embargo, existen más que la comunidad científica debería conocer y que podrían ayudar a avanzar en el estudio de este fenómeno”, precisa el catedrático de la Universidad de Murcia Rafael Valencia García.

La siguiente fase de la investigación será mejorar la interpretabilidad del sistema para que estos modelos sean comprensibles por cualquier persona no experta, es decir, que puedan entender cómo el algoritmo ha decidido clasificar ese mensaje de una forma u otra.

El equipo de investigación apunta que este modelo se plasmará en aplicaciones que indiquen de forma rápida si un mensaje contiene elementos de odio o no. Así se agilizará el mecanismo de alerta en las plataformas de medios sociales para avisar sobre la presencia de elementos odiosos en los contenidos o el seguimiento de usuarios que viertan continuamente mensajes de odio.

El trabajo ha sido realizado dentro de los proyectos de investigación LaTe4PSP, AIInFunds, LIVING-LANG, BigHug y WeLee financiados por la Agencia Estatal de Investigación y la Junta de Andalucía con fondos FEDER. Además, este trabajo ha sido posible gracias a una estancia de investigación de la Dra. Salud María Jiménez Zafra en el grupo TECNOMOD de la Universidad de Murcia y a la ayuda postdoctoral del programa PAIDI 2020 financiada por el Fondo Social Europeo y la Administración de la Junta de Andalucía (DOC_01073).

Referencias

García-Díaz, J.A., Jiménez-Zafra, S.M., García-Cumbreras, M.A., & Valencia-García, R. Evaluating feature combination strategies for hate-speech detection in Spanish using linguistic features and transformers. Complex Intell. Syst. (2022). https://doi.org/10.1007/s40747-022-00693-x

Más información:

#CienciaDirecta, agencia de noticias de ciencia andaluza, financiada por la Consejería de Transformación Económica, Industria, Conocimiento y Universidades de la Junta de Andalucía.

Teléfono: 958 63 71 99

E-mail: comunicacion@fundaciondescubre.es

Documentación adicional

Equipo de investigación del estudio

Mujer usando el móvil. Imagen: Freepik

El móvil es una de las herramientas donde se aplica este sistema. Imagen: Freepik

Últimas publicaciones

Recursos Naturales y Medio Ambiente

Cuestionan la precisión de las cámaras submarinas que miden el carbono que absorbe el océano

Sevilla | 05 de junio de 2026

La oceanógrafa de la Universidad de Sevilla, Elena Ceballos, ha llevado a cabo una investigación que revela que funcionan bien a gran escala, pero presentan limitaciones importantes en condiciones complejas, lo que puede provocar errores en las estimaciones climáticas futuras.

Sigue leyendo

Recursos Naturales y Medio Ambiente

Identifican las áreas de más calor nocturno de Andalucía y sus recursos energéticos para combatirlo

Almería | 05 de junio de 2026

La investigación, realizada por científicos de la Universidad de Almería y de la Universidad de Michigan (EE.UU.) permite anticipar la demanda de refrigeración y plantear soluciones energéticas sostenibles con recursos locales.

Sigue leyendo

Ciencias Económicas, Sociales y Juridicas

Analizan el impacto de la formación en educación STEM integrada en futuros docentes de Primaria

Málaga | 05 de junio de 2026

Un estudio realizado en la Universidad de Málaga revela el potencial de la capacitación del profesorado en este ámbito, así como la percepción de barreras. Propone, además, comprender cómo diferentes tipos de programas de desarrollo profesional docente influyen en las actitudes hacia la iSTEM del futuro profesorado de Educación Primaria.

Sigue leyendo

#CienciaDirecta

Tu fuente de noticias sobre ciencia andaluza

Más información Suscríbete

¿ERES CIENTÍFICO/A Y QUIERES DIFUNDIR TUS RESULTADOS? CONTÁCTANOS

¿QUIERES CONTACTAR CON UN CIENTÍFICO/A? CONSULTA LA GUÍA EXPERTA

Política de cookies

Este sitio web utiliza cookies para mejorar su experiencia mientras navega por el sitio web. De estas, las cookies que se clasifican como necesarias se almacenan en su navegador, ya que son esenciales para el funcionamiento de las funcionalidades básicas del sitio web. También utilizamos cookies de terceros que nos ayudan a analizar y comprender cómo utiliza este sitio web. Estas cookies se almacenarán en su navegador solo con su consentimiento. También tiene la opción de optar por no recibir estas cookies. Pero la exclusión voluntaria de algunas de estas cookies puede afectar su experiencia de navegación.

Necesarias

Siempre activado

Las cookies necesarias son absolutamente esenciales para que el sitio web funcione correctamente. Esta categoría solo incluye cookies que garantizan funcionalidades básicas y características de seguridad del sitio web. Estas cookies no almacenan ninguna información personal.

Cookie	Duración	Descripción
CONSENT	16 años 7 meses	Esta cookie está configurada por el complemento de consentimiento de cookies de GDPR. La cookie se utiliza para almacenar el consentimiento del usuario para las cookies.
cookielawinfo-checkbox-advertisement	1 año	La cookie se establece mediante el consentimiento de cookies de GDPR para registrar el consentimiento del usuario para las cookies en la categoría "Publicidad".
cookielawinfo-checkbox-analytics	1 año	Estas cookies están configuradas por el complemento de WordPress de consentimiento de cookies de GDPR. La cookie se utiliza para recordar el consentimiento del usuario para las cookies en la categoría "Análisis".
cookielawinfo-checkbox-necessary	1 año	Esta cookie está configurada por el complemento de consentimiento de cookies de GDPR. Las cookies se utilizan para almacenar el consentimiento del usuario para las cookies en la categoría "Necesarias".
cookielawinfo-checkbox-performance	1 año	Esta cookie está configurada por el complemento de consentimiento de cookies de GDPR. La cookie se utiliza para almacenar el consentimiento del usuario para las cookies en la categoría "Rendimiento".
JCS_INENREF	1 hora	La cookie es parte de las medidas de seguridad del sitio web y se utiliza con fines antispam.
JCS_INENTIM	1 hora	La cookie es parte de las medidas de seguridad del sitio web y se utiliza con fines antispam.
PHPSESSID	sessión	Esta cookie es nativa de las aplicaciones PHP. La cookie se utiliza para almacenar e identificar la identificación de sesión única de un usuario con el fin de administrar la sesión del usuario en el sitio web. La cookie es una cookie de sesión y se elimina cuando se cierran todas las ventanas del navegador.

Rendimiento

Las cookies de rendimiento se utilizan para comprender y analizar los índices de rendimiento clave del sitio web, lo que ayuda a brindar una mejor experiencia de usuario a los visitantes.

Cookie	Duración	Descripción
_gat	1 minuto	Google Universal Analytics instala estas cookies para acelerar la tasa de solicitud y limitar la recopilación de datos en sitios de alto tráfico.
YSC	sessión	Estas cookies son establecidas por Youtube y se utilizan para rastrear las vistas de videos incrustados.

Analítica

Las cookies analíticas se utilizan para comprender cómo los visitantes interactúan con el sitio web. Estas cookies ayudan a proporcionar información sobre métricas, el número de visitantes, la tasa de rebote, la fuente de tráfico, etc.

Cookie	Duración	Descripción
_ga	2 años	Esta cookie es instalada por Google Analytics. La cookie se utiliza para calcular los datos de visitantes, sesiones y campañas y realizar un seguimiento del uso del sitio para el informe de análisis del sitio. Las cookies almacenan información de forma anónima y asignan un número generado aleatoriamente para identificar visitantes únicos.
_gid	1 día	Esta cookie es instalada por Google Analytics. La cookie se utiliza para almacenar información sobre cómo los visitantes usan un sitio web y ayuda a crear un informe analítico de cómo está funcionando el sitio web. Los datos recopilados, incluido el número de visitantes, la fuente de donde provienen y las páginas visitadas de forma anónima.

Las cookies publicitarias se utilizan para proporcionar a los visitantes anuncios y campañas de marketing relevantes. Estas cookies rastrean a los visitantes en los sitios web y recopilan información para proporcionar anuncios personalizados.

Cookie	Duración	Descripción
IDE	1 año 24 días	Utilizado por Google DoubleClick y almacena información sobre cómo el usuario utiliza el sitio web y cualquier otro anuncio antes de visitar el sitio web. Se utiliza para presentar a los usuarios anuncios que son relevantes para ellos de acuerdo con el perfil del usuario.
ms-uid	1 año	Estas cookies tienen una finalidad publicitaria. Contienen un valor único generado aleatoriamente que permite a la Plataforma distinguir navegadores y dispositivos. Esta información se utiliza para medir el rendimiento de los anuncios y proporcionar recomendaciones de productos basadas en datos.
NID	6 meses	Esta cookie se utiliza para crear un perfil en función del interés del usuario y mostrar anuncios personalizados a los usuarios.
test_cookie	15 minutos	Esta cookie la establece doubleclick.net. El propósito de la cookie es determinar si el navegador del usuario admite cookies.
VISITOR_INFO1_LIVE	5 meses 27 días	Youtube establece esta cookie. Se utiliza para rastrear la información de los videos de YouTube incrustados en un sitio web.