Departament de Llenguatges i Sistemes Informàtics

Notícia

Nou projecte europeu: Provision of web-scale parallel corpora for official European languages

La Universitat d'Alacant, a través del grup Transducens del nostre Departament, serà un dels socis
de l'acció 2016-EU-IA-0114 "Provision of web-scale parallel corpora for official European
languages", concedida en el marc de la convocatòria CEF-TC-2016-3 – Automated Translation.

El projecte durarà 18 mesos i està coordinat per la Universitat d'Edimburg i té també com a
socis l'empresa TAUS i Prompsit Language Engineering, empresa sorgida del grup Transducens.

S'espera que el component Automated Translation de la Connecting Europe Facility (CEF) proveïsca de
serveis de traducció automàtica en les llengües oficials d'Europa a un ampli conjunt d'institucions
europees. Els recursos més importants per a construir un servei de traducció automàtica són
els corpus paral·lels, és a dir, les col·leccions de textos traduïts. Fins al moment, recursos
d'aquest tipus solament estan disponibles a gran escala para determinats llocs web com el Parlament
Europeu, les Nacions Unides, o per a algunes iniciatives voluntàries com les traduccions de
les xarrades TED o d'Open Subtitles, i només per a algunes llengües d'Europa. No obstant açò,
la traducció automàtica privada (Google, Microsoft) es basa en corpus basats en els textos de
milions de llocs web i que tracten amb un rang més ampli de gèneres, temàtiques i estils.

En este projecte, aplicarem les últimes tecnologies disponibles per a la cadena de processament
completa, des de la identificació dels llocs web amb text traduït fins a l'obtenció de corpus
paral·lels nets massius per a totes les llengües d'Europa. Estos textos, que cobriran una àmplia
varietat d'estils, gèneres i temàtiques, estaran disponibles tant per a ser usats com a dades
d'entrenament en el CEF Automated Translation com per a servir de memòries de traducció per a
la DG de Traducció. Les eines seran publicades amb llicències de codi font obert perquè puguen
ser usades tant per CEF Automated Translation com per tercers interessats.
[ Tancar ]