Departamento de Lenguajes y Sistemas Informáticos

Noticia

Nuevo proyecto europeo: Provision of web-scale parallel corpora for official European languages

La Universidad de Alicante, a través del grupo Transducens de nuestro Departamento, será uno
de los socios de la acción 2016-EU-IA-0114 "Provision of web-scale parallel corpora for
official European languages", concedida en el marco de la convocatoria CEF-TC-2016-3 –
Automated Translation.

El proyecto durará 18 meses y está coordinado por la Universidad de Edimburgo y tiene también como
socios la empresa TAUS y Prompsit Language Engineering, empresa surgida del grupo Transducens.

Se espera que el componente Automated Translation de la Connecting Europe Facility (CEF) provea
de servicios de traducción automática en las lenguas oficiales de Europa a un amplio conjunto de
instituciones europeas. Los recursos más importantes para construir un servicio de traducción
automática son los corpus paralelos, es decir, las colecciones de textos traducidos. Hasta el
momento, recursos de este tipo solo están disponibles a gran escala para determinados sitios
web como el Parlamento Europeo, las Naciones Unidas, o para algunas iniciativas voluntarias
como las traducciones de las charlas TED o de Open Subtitles, y sólo para algunas lenguas de
Europa. Sin embargo, la traducción automática privada (Google, Microsoft) se basa en corpus
basados en los textos de millones de sitios web y que tratan con un rango más amplio de géneros,
temáticas y estilos.

En este proyecto, aplicaremos las últimas tecnologías disponibles para la cadena de procesamiento
completa, desde la identificación de los sitios web con texto traducido hasta la obtención de
corpus paralelos limpios masivos para todas las lenguas de Europa. Estos textos, que cubrirán una
amplia variedad de estilos, géneros y temáticas, estarán listos tanto para ser usados como datos
de entrenamiento en el CEF Automated Translation como para servir de memorias de traducción para
la DG de Traducción. Las herramientas serán publicadas con licencias de código fuente abierto
para que puedan ser usadas tanto por CEF Automated Translation como por terceros interesados.
[ Cerrar ]