El nuevo ‘google translate’ de la UE tiene sello español

Una empresa valenciana recibe dos millones de euros de la Comisión para crear un motor de traducción con redes neuronales de las 24 lenguas oficiales

Su apuesta pionera por la traducción estadística posicionó a Pangeanic como un aliado imprescindible para las multinacionales niponas como Toshiba, Honda, Sony y Panasonic. El know how de esta empresa española fue tejiendo una red que se movía entre contratistas de Defensa de EEUU hasta Rolls-Royce y Samsung o protagonistas del Nasdaq como Veritone. Pronto el equipo detectó el enorme potencial de la inteligencia artificial en su complejo campo de conocimiento. Hoy, ese trabajo se ve recompensado con la adjudicación de un gran proyecto comunitario. La compañía, con sede en Valencia, es la responsable de desarrollar el ‘Google Translate’ de la Unión Europea.

El gran salto de Pangeanic se produjo en 2016 cuando se dio cuenta de que "algo estaba empezando a cambiar". La empresa trabajaba con traducción basada en estadística, muy superior a los sistemas tradicionales basados en reglas. "Funcionaba relativamente bien para idiomas cercanos, aunque no tanto cuando existían diferencias lingüísticas", recuerda su CEO, Manuel Herranz. Pero entonces sucedió que NVIDIA democratizó las GPU. "Por primera vez, las redes neuronales tenían una autopista para funcionar". Este salto suponía reducir las tareas de procesamiento y entrenamiento de tres meses a tres semanas.

En aquel momento, la empresa española decidió crear un programa de recopilación de datos, ya que si hay algo que necesita esta tecnología es información de calidad. "Si el sistema estadístico funciona con un par de millones de frases, el de redes neuronales requiere más del triple". Así, fueron creando su base de datos que hoy supera las 3.000 millones de frases "perfectamente alineadas".

¿Ventajas de la inteligencia artificial en la traducción? "Las redes neuronales intentan imitar a los humanos". Esto significa que también tienen en cuenta el contexto. "No traducen palabra a palabra, sino sílaba a sílaba e incluso letra a letra", apunta. Resultado: cae el porcentaje de error.

Además de su base de datos, Pangeanic necesitaba algoritmos. Para ello recurrió a las librerías libres disponibles y las adaptó a sus necesidades. Y con todo eso creó un know how único que no solo sirve para la traducción, sino que puede sumarizar, o clasificar.

Desde 2017, el trabajo de la valenciana está resolviendo necesidades de la Comisión Europea. Ahora acaba de conocer cuál será su último gran desafío: el desarrollo de un ‘Google Translate’ para la Unión Europea. Para ello, ha recibido un proyecto Connecting Europe Facility (CEF) dotado de dos millones de euros. El objetivo es desarrollar 420 motores de traducción que recojan todas las combinaciones entre los 24 idiomas oficiales. Cada uno tendrá una base de 15 millones de frases traducidas. Después, tres universidades certificarán que los resultados no pierden más del 5% de calidad. Una exigencia que a Herranz no le preocupa. "En el sector privado, ya estamos traduciendo igual o mejor que Google".

La idea es que esta tecnología permita a la Comisión Europea transmitir información a los estados miembros y viceversa. También habrá una copia de los motores que será pública, de código abierto, que cada Gobierno podrá utilizar a su antojo.

La ventaja de Pangeanic frente a las grandes tecnológicas como Google o Microsoft es que su tecnología es lineal. "Cuando otros sistemas traducen de un idioma a otro, pasan por uno intermedio del que tienen más datos, que suele ser el inglés", explica el CEO. «Pero se produce una pérdida porque no vas en línea recta». Ellos eliminan ese paso y hacen la traducción directa.

Su gran reto es la generación de datos. Aunque la empresa española cuenta con su propia base y la de la Unión Europea, necesitará 15 millones de frases para todas las combinaciones, incluso para las menos frecuentes. Y, además, esas oraciones tendrán que tratar de política, economía y justicia, que son los temas relevantes para la Comisión.

¿Cómo pueden obtener todos esos datos? Existen datos ya generados y otros que se pueden generar... sintéticamente. Las redes neuronales de Pangeanic son capaces de crear frases sin errores de forma artificial. Además, aportan calidad sobre los generados por las personas: son más fiables, escalables y contienen menos ruido. De hecho, la mitad de los 3.000 millones de frases de Pangeanic son sintéticas. Aunque el proyecto empezará en septiembre durará dos años, la empresa irá publicando los motores según vaya desarrollándolos.

El nuevo ‘google translate’ de la UE tiene sello español

Añadir nuevo comentario