VOLVER

Share

Primer sistema para extraer información de textos en español, portugués y gallego

Fuente: SINC


05 de febrero de 2015
Las nuevas herramientas para lenguas de la Península ofrecen resultados muy competitivos con el inglés. / Geralt

Las nuevas herramientas para lenguas de la Península ofrecen resultados muy competitivos con el inglés. / Geralt

Escribir un correo electrónico, publicar una entrada en un blog, o comentar una fotografía en una red social, son ejemplos cotidianos de nuestra contribución al crecimiento exponencial de los datos en la red, cuya fracción más significativa está constituida por un número creciente de textos y documentos. Estimaciones recientes apuntan que el volumen de información generado por la humanidad desde los albores de la civilización hasta el año 2003 apenas equivaldría a la cantidad de datos que los usuarios de internet crean en dos días.

Esta tendencia expansiva exige una evolución constante de las herramientas informáticas diseñadas para su análisis y procesado, y en este marco, científicos del Centro Singular de Investigación en Tecnoloxías da Información (CiTIUS) en Galicia han desarrollado nuevas herramientas para el análisis de textos en español, gallego y portugués.

Sus técnicas computacionales se centran en el procesamiento de lenguaje natural (interacciones entre computadoras y el lenguaje humano) y la extracción abierta de información, con la que se consiguen datos estructurados desde otros que no lo están pero son legibles por los ordenadores. Los resultados se han publicado en una tesis y diversos papers.

El procesamiento de lenguaje natural tiene múltiples aplicaciones, entre las que figuran los traductores automáticos o el aprendizaje de idiomas on line. En la actualidad, las técnicas utilizadas en este ámbito se encuentran ya en un estado muy avanzado para lenguas como el inglés, pero en el caso de otras –como las tres con las que trabajan–, la tecnología disponible hasta la fecha era mucho más limitada.

Para suplir estas carencias, el investigador Marcos García y otros miembros del CiTIUS han creado herramientas que mejoran la capacidad de procesamiento del español, gallego y portugués, en colaboración con el Grupo de Gramática del Español de la Universidad de Santiago de Compostela (USC).

Por su parte, los sistemas de extracción abierta permiten analizar la web para obtener y organizar automáticamente grandes cantidades de información, lo que resulta muy útil a la hora de discernir ideas o mensajes entre la maraña de datos de la red. Así, por ejemplo, se puede inferir de manera muy sencilla unidades semánticas fácilmente reconocibles, como ‘Santiago está en Galicia’ o ‘la edad de Messi es 27 años’, a partir de la información disponible en la web.

El sistema de extracción abierta presentado es el primero en funcionar en gallego, portugués y español, además de ofrece resultados muy competitivos con los mejores sistemas en lengua inglesa, según sus autores. Se trata, así, de la primera solución de este tipo disponible, un conjunto de herramientas lingüísticas desarrolladas bajo una licencia de software libre que pueden descargarse gratuitamente.

Una empresa surge de la investigación

Esta línea de investigación ha dado lugar también a la creación de una nueva empresa especializada en tecnologías del lenguaje: la spin-off del CiTIUS Cilenis Software, creada en 2011 y galardonada el mismo año con el Primer Premio al Proyecto Empresarial Innovador.  En 2012, el empresario y analista económico Marc Vidal adquirió parte de esta empresa, a través de la compañía IDODI Labs.

Según los responsables del proyecto, Cilenis Software surgió como medio para hacer viables a nivel comercial los resultados de investigación del grupo. Como afirma Pablo Gamallo, director de la tesis de Marcos García y cofundador de Cilenis, lo que se pretende es «reducir el gap actual entre las herramientas disponibles para procesar la lengua inglesa, y las empleadas para el análisis de lenguas iberoamericanas».


Share

Últimas publicaciones

Determinan el desplazamiento de los microplásticos vertidos en el golfo de Cádiz
Cádiz | 29 de diciembre de 2024

Un equipo del Instituto Universitario de Investigación Marina (INMAR) de la Universidad de Cádiz ha aplicado un modelo matemático para el seguimiento de las partículas que se vierten en la desembocadura de los ríos gaditanos. Con él ha observado cómo estos contaminantes se mueven y se acumulan en el océano. Este estudio proporciona información clave para diseñar estrategias que protejan los ecosistemas marinos y garanticen un futuro más sostenible.

Sigue leyendo
Un nuevo método ecológico identifica altos niveles de triptófano en setas silvestres
Cádiz | 25 de diciembre de 2024

Un grupo de investigación de la Universidad de Cádiz ha empleado un sistema de extracción ‘verde’ para identificar la cantidad de este aminoácido esencial, necesario para producir proteínas, así como la hormona melatonina y el neurotransmisor serotonina en el organismo. Tras los ensayos, realizados con hongos comestibles del sur de Andalucía y el norte de Marruecos, los resultados evidencian su alta concentración en este tipo de alimentos y abre nuevas vías de estudio para determinar su potencial terapéutico.

Sigue leyendo
Proponen un enfoque educativo que amplíe el vocabulario del alumnado sordo en Educación Primaria
Málaga | 22 de diciembre de 2024

Un equipo de investigación de la Universidad de Málaga ha evaluado a casi un centenar de estudiantes de entre 8 y 12 años para entender mejor los desafíos léxicos a los que se enfrentan aquellos con pérdida auditiva. Las expertas sugieren un enfoque basado en relaciones entre determinadas clases de palabras para mejorar su aprendizaje y que puedan estudiar en igualdad de condiciones que sus compañeros oyentes.

Sigue leyendo

#CienciaDirecta

Tu fuente de noticias sobre ciencia andaluza

Más información Suscríbete

404 Not Found

404 Not Found


nginx/1.18.0
Ir al contenido