Crean un acelerador de modelos de inteligencia artificial hasta un 70% más rápido con menos datos

Un equipo de investigación de la Universidad de Cádiz ha creado REDIBAGG, un método que acelera el entrenamiento de modelos de inteligencia artificial hasta un 70%, al utilizar menos datos pero sin perder precisión. La técnica tiene potencial para analizar grandes volúmenes de información en campos tan diversos como la medicina, la industria o las finanzas.

Fuente: Fundación Descubre

Cádiz |

05 de julio de 2025

Un equipo de investigación del departamento de Ingeniería Informática de la Universidad de Cádiz ha desarrollado REDIBAGG, un método que permite acelerar el entrenamiento de modelos de inteligencia artificial manteniendo su precisión. Esta técnica reduce el tamaño de los datos empleados durante la fase de aprendizaje, lo que rebaja en hasta un 70 % el tiempo de procesamiento y, por tanto, reduce el consumo de recursos informáticos.

La herramienta está diseñada para trabajar con grandes volúmenes de información que se utilicen para tareas de clasificación, es decir, situaciones en las que los algoritmos deben elegir entre varias opciones concretas. Así, por ejemplo, en salud podría acelerar sistemas de diagnóstico automático sin sacrificar fiabilidad, en industria serviría para detectar fallos en tiempo real con menor consumo de recursos, o en finanzas procesar grandes registros en menos tiempo para prevenir fraudes o analizar riesgos.

Supercomputador y servidores de la Universidad de Cádiz.

Como explican en el artículo ‘REDIBAGG: Reducing the training set size in ensemble machine learning-based prediction models’, publicado en la revista Engineering Applications of Artificial Intelligence, el sistema se comporta bien en contextos dispares. “No es un método orientado a ciertos tipos de datos, sino que es muy versátil y robusto ante cualquier volumen con gran número de características o instancias”, apunta a la Fundación Descubre Juan-Francisco Cabrera-Sánchez, coautor del estudio.

Otra ventaja de la herramienta es su simplicidad de implementación. Se puede aplicar fácilmente en entornos de trabajo habituales con inteligencia artificial como el lenguaje de programación Python, y bibliotecas estándar como Scikit-learn, específica para usar técnicas de aprendizaje automático de forma sencilla, lo que facilitaría su adopción por parte de investigadores, empresas o instituciones.

¿Cómo funciona?

REDIBAGG es una variante de bagging (abreviatura en inglés de bootstrap aggregating), un método de combinación de modelos muy utilizado para mejorar la precisión de los clasificadores en el contexto de la inteligencia artificial. La herramienta crea múltiples subconjuntos a partir de la muestra original de los datos. Cada submuestra se usa para el aprendizaje de un clasificador base, y luego se combinan las predicciones para tomar decisiones más fiables. El método de remuestreo que utiliza bagging es bootstrap, una técnica estadística que genera submuestras aleatorias con reemplazo. Es decir, se crean nuevas colecciones de datos eligiendo ejemplos al azar del conjunto original, permitiendo que algunos se repitan y otros no.

Aunque bagging es eficaz, su principal inconveniente es el alto coste computacional. Cada modelo se entrena con una submuestra del mismo tamaño que el conjunto original, lo que ralentiza el aprendizaje y multiplica el consumo de recursos. Frente a esta limitación, los expertos han aplicado un nuevo sistema de remuestreo que genera subconjuntos más pequeños, pero representativos.

Para validar su eficacia lo pusieron a prueba en 30 conjuntos de datos reales utilizando Urania, el supercomputador de la UCA.

A partir de esas submuestras, han entrenado varios modelos independientes, combinando sus predicciones igual que en bagging clásico. “En la era de big data, donde se trabaja con grandes volúmenes de datos, utilizar métodos que reduzcan los tiempos de aprendizaje es de agradecer, sobre todo si se rebaja hasta un 70 % con respecto al método original”, destaca Esther-Lydia Silva-Ramírez, autora principal del estudio.

Para validar su eficacia lo pusieron a prueba en 30 conjuntos de datos reales utilizando Urania, el supercomputador de la Universidad de Cádiz. Trabajaron en áreas tan diversas como la medicina, la biología, la física o las ciencias sociales. Además, se aplicó con distintos tipos de algoritmos de clasificación, como árboles de decisión, redes neuronales, máquinas de soporte vectorial o modelos bayesianos.

Próximos objetivos

En todos los casos, el nuevo enfoque demostró una precisión comparable al método original. De media, consiguieron rebajar el tiempo de entrenamiento en un 35 %, alcanzando reducciones del 70 % en conjuntos de datos muy grandes. “Al trabajar con modelos menos complejos se reducen las horas de entrenamiento y el coste de almacenamiento, por lo que el método es mucho más eficiente”, matiza la científica.

Los investigadores se proponen liberar el método para su disposición por parte de la comunidad científica.

Ahora los investigadores se proponen liberar el método para su disposición por parte de la comunidad científica. También contemplan estudiar cómo la herramienta podría aplicarse a otros sistemas de aprendizaje automático, aparte de bagging y sus variantes, combinarlo con técnicas de selección de variables para obtener modelos aún más eficientes, o explorar su adaptación a tareas de regresión, en las que se predicen valores numéricos en lugar de categorías.

El trabajo ha sido financiado mediante el proyecto Generación Inteligente de Software Sostenible (GENIUS) de la Consejería de Universidad, Investigación e Innovación de la Junta de Andalucía y Fondos FEDER, así como el Proyecto iSUN del Ministerio de Ciencia, Innovación y Universidades.

Reportaje: REDIBAGG, el método andaluz que reduce el esfuerzo de las máquinas para aprender

Referencias

Esther-Lydia Silva-Ramírez, Juan-Francisco Cabrera-Sánchez, Manuel López-Coello ‘REDIBAGG: Reducing the training set size in ensemble machine learning-based prediction models’, Engineering Applications of Artificial Intelligence. 2025

Más información:

#CienciaDirecta, agencia de noticias de ciencia andaluza, impulsada por la Consejería de Universidad, Investigación e Innovación de la Junta de Andalucía, con la colaboración de la Fundación Española para la Ciencia y la Tecnología-Ministerio de Ciencia, Innovación y Universidades.

Teléfono: 663 920 093

E-mail: comunicacion@fundaciondescubre.es

Documentación adicional

Equipo.jpg: Equipo de investigación de la Universidad de Cádiz que ha participado en este proyecto.

Servidores.jpg: Supercomputador y servidores de la Universidad de Cádiz.

Supercomputador.jpg: Para validar su eficacia lo pusieron a prueba en 30 conjuntos de datos reales utilizando Urania, el supercomputador de la UCA.

Últimas publicaciones

#CienciaDirecta

Recursos Naturales y Medio Ambiente

Un proyecto de ciencia ciudadana convertirá la Universidad Pablo de Olavide en un laboratorio vivo para estudiar la biodiversidad

Sevilla | 11 de abril de 2026

Investigadores de esta institución lideran la iniciativa, en la que participan 200 personas y que concluirá con un informe que recopilará acciones prácticas para mejorar la funcionalidad ecológica del campus.

Sigue leyendo

Biodiversidad, Ciencias de la Vida, Recursos Naturales y Medio Ambiente

El inventario más completo de vertebrados de Doñana cuenta con 700 especies registradas desde principios del s.XX

10 de abril de 2026

El inventario, liderado por el Consejo Superior de Investigaciones Científicas (CSIC), actualiza el conocimiento sobre la biodiversidad en la Reserva de la Biosfera de Doñana, área protegida y amenazada. Las aves son el grupo más rico con 417 especies. Las siguen los peces, con 182 especies. En total se incluyen 700 especies de vertebrados y se excluyen del listado las especies domesticadas.

Sigue leyendo

Política científica

Un grupo de trabajo interinstitucional coordinará las actividades por el trío de eclipses

Andalucía | 08 de abril de 2026

El objetivo central es facilitar a ciudadanos y visitantes una experiencia única y segura y difundir el conocimiento científico y la innovación en relación con esta iniciativa.

Sigue leyendo

#CienciaDirecta

Tu fuente de noticias sobre ciencia andaluza

Más información Suscríbete

¿ERES CIENTÍFICO/A Y QUIERES DIFUNDIR TUS RESULTADOS? CONTÁCTANOS

¿QUIERES CONTACTAR CON UN CIENTÍFICO/A? CONSULTA LA GUÍA EXPERTA

Política de cookies

Este sitio web utiliza cookies para mejorar su experiencia mientras navega por el sitio web. De estas, las cookies que se clasifican como necesarias se almacenan en su navegador, ya que son esenciales para el funcionamiento de las funcionalidades básicas del sitio web. También utilizamos cookies de terceros que nos ayudan a analizar y comprender cómo utiliza este sitio web. Estas cookies se almacenarán en su navegador solo con su consentimiento. También tiene la opción de optar por no recibir estas cookies. Pero la exclusión voluntaria de algunas de estas cookies puede afectar su experiencia de navegación.

Necesarias

Siempre activado

Las cookies necesarias son absolutamente esenciales para que el sitio web funcione correctamente. Esta categoría solo incluye cookies que garantizan funcionalidades básicas y características de seguridad del sitio web. Estas cookies no almacenan ninguna información personal.

Cookie	Duración	Descripción
CONSENT	16 años 7 meses	Esta cookie está configurada por el complemento de consentimiento de cookies de GDPR. La cookie se utiliza para almacenar el consentimiento del usuario para las cookies.
cookielawinfo-checkbox-advertisement	1 año	La cookie se establece mediante el consentimiento de cookies de GDPR para registrar el consentimiento del usuario para las cookies en la categoría "Publicidad".
cookielawinfo-checkbox-analytics	1 año	Estas cookies están configuradas por el complemento de WordPress de consentimiento de cookies de GDPR. La cookie se utiliza para recordar el consentimiento del usuario para las cookies en la categoría "Análisis".
cookielawinfo-checkbox-necessary	1 año	Esta cookie está configurada por el complemento de consentimiento de cookies de GDPR. Las cookies se utilizan para almacenar el consentimiento del usuario para las cookies en la categoría "Necesarias".
cookielawinfo-checkbox-performance	1 año	Esta cookie está configurada por el complemento de consentimiento de cookies de GDPR. La cookie se utiliza para almacenar el consentimiento del usuario para las cookies en la categoría "Rendimiento".
JCS_INENREF	1 hora	La cookie es parte de las medidas de seguridad del sitio web y se utiliza con fines antispam.
JCS_INENTIM	1 hora	La cookie es parte de las medidas de seguridad del sitio web y se utiliza con fines antispam.
PHPSESSID	sessión	Esta cookie es nativa de las aplicaciones PHP. La cookie se utiliza para almacenar e identificar la identificación de sesión única de un usuario con el fin de administrar la sesión del usuario en el sitio web. La cookie es una cookie de sesión y se elimina cuando se cierran todas las ventanas del navegador.

Rendimiento

Las cookies de rendimiento se utilizan para comprender y analizar los índices de rendimiento clave del sitio web, lo que ayuda a brindar una mejor experiencia de usuario a los visitantes.

Cookie	Duración	Descripción
_gat	1 minuto	Google Universal Analytics instala estas cookies para acelerar la tasa de solicitud y limitar la recopilación de datos en sitios de alto tráfico.
YSC	sessión	Estas cookies son establecidas por Youtube y se utilizan para rastrear las vistas de videos incrustados.

Analítica

Las cookies analíticas se utilizan para comprender cómo los visitantes interactúan con el sitio web. Estas cookies ayudan a proporcionar información sobre métricas, el número de visitantes, la tasa de rebote, la fuente de tráfico, etc.

Cookie	Duración	Descripción
_ga	2 años	Esta cookie es instalada por Google Analytics. La cookie se utiliza para calcular los datos de visitantes, sesiones y campañas y realizar un seguimiento del uso del sitio para el informe de análisis del sitio. Las cookies almacenan información de forma anónima y asignan un número generado aleatoriamente para identificar visitantes únicos.
_gid	1 día	Esta cookie es instalada por Google Analytics. La cookie se utiliza para almacenar información sobre cómo los visitantes usan un sitio web y ayuda a crear un informe analítico de cómo está funcionando el sitio web. Los datos recopilados, incluido el número de visitantes, la fuente de donde provienen y las páginas visitadas de forma anónima.

Las cookies publicitarias se utilizan para proporcionar a los visitantes anuncios y campañas de marketing relevantes. Estas cookies rastrean a los visitantes en los sitios web y recopilan información para proporcionar anuncios personalizados.

Cookie	Duración	Descripción
IDE	1 año 24 días	Utilizado por Google DoubleClick y almacena información sobre cómo el usuario utiliza el sitio web y cualquier otro anuncio antes de visitar el sitio web. Se utiliza para presentar a los usuarios anuncios que son relevantes para ellos de acuerdo con el perfil del usuario.
ms-uid	1 año	Estas cookies tienen una finalidad publicitaria. Contienen un valor único generado aleatoriamente que permite a la Plataforma distinguir navegadores y dispositivos. Esta información se utiliza para medir el rendimiento de los anuncios y proporcionar recomendaciones de productos basadas en datos.
NID	6 meses	Esta cookie se utiliza para crear un perfil en función del interés del usuario y mostrar anuncios personalizados a los usuarios.
test_cookie	15 minutos	Esta cookie la establece doubleclick.net. El propósito de la cookie es determinar si el navegador del usuario admite cookies.
VISITOR_INFO1_LIVE	5 meses 27 días	Youtube establece esta cookie. Se utiliza para rastrear la información de los videos de YouTube incrustados en un sitio web.