La traducción automática:
ascenso, apogeo ¿y caída?
Si uno tradujera la frase más famosa de la literatura, la primera oración de Ana Karenina, del ruso al español con la ayuda de Google Translate, esto es lo que obtendría: “Todas las familias felices se parecen entre sí, cada familia desdichada es desdichada a su manera”.
La traducción, que se aproxima a la mejor versión “humana” de esa oración, parece un triunfo de lo que antes se llamaba inteligencia artificial y ahora, menos ambiciosamente, aprendizaje automático. La computadora puede entender el lenguaje, se nos invita a pensar. Pero pasemos las siguientes frases de Ana Karenina por el sistema y el panorama –además de la gramática– ya no será tan claro.
El resultado es mínimamente comprensible si conocemos el original, pero apenas es legible. Esa discrepancia se debe a una de las sutilezas del sistema de Google que permite a los usuarios interesados mejorar los textos traducidos. Alguien evidentemente tomó la primera frase de la obra maestra de Tolstoi y la corrigió.
Desde que las computadoras fueron una realidad, la posibilidad de usar su poder logístico para derribar las barreras del idioma ha sido una especie de Santo Grial del aprendizaje automático. Los primeros –y fallidos– intentos se basaban en el principio de que todas las lenguas podían descomponerse en dos elementos: un léxico de palabras con significados específicos y un conjunto de normas gramaticales y sintácticas para combinar esas palabras.
El primer avance significativo en el potencial de la traducción mecanizada se produjo a comienzos de la década de 1990, cuando IBM creó un modelo que abandonó todo esfuerzo por tratar de que la computadora “comprendiera” el texto que se ingresaba en ella y en cambio abordó la tarea instalando en la computadora las versiones comparadas de la mayor cantidad posible de textos traducidos y haciendo que el sistema calculara la probabilidad de los significados de las palabras y las frases sobre la base de los precedentes estadísticos. El pionero de este enfoque fue Frederick Jelinek de IBM, quien, desconfiando de los modelos basados en analogías con el aprendizaje humano de la gramática, dijo: “Cada vez que echo a un lingüista, el funcionamiento de nuestro sistema mejora”.
Pero unos diez años después, el sistema basado en estadísticas comenzaba a mostrar graves limitaciones, en particular cuando intentaba traducciones de idiomas en los cuales había relativamente poco texto que “aprender” como referencia. Fue en ese momento cuando Google ingresó con fuerza en este campo. El impulso inicial para el traductor de Google se remonta, según cuenta la leyenda empresaria, a una reunión en las oficinas de la compañía en California celebrada en 2004. Uno de los fundadores del motor de búsqueda, Sergey Brin, había recibido una carta elogiosa de un usuario de Corea del Sur. Brin entendía que el mensaje destacaba la innovación de su empresa pero, cuando pasó la carta por el servicio de traducción mecanizada del que Google tenía la licencia en aquel momento, el resultado fue: “El pescado crudo en tajadas zapatos desea. ¡Google algo cebolla verde!”
Brin consideraba que Google debía tener la capacidad y la firme decisión de mejorar ese despropósito. Desde entonces, con la ampliación de sus intereses globales, el servicio gratuito Google Translate ha evolucionado e intenta traducciones instantáneas de 52 idiomas y es utilizado decenas de millones de veces por día para traducir páginas web y otros textos. Además, ofrece un “kit de herramientas” para que los hablantes de lenguas más marginales puedan crear sus propios servicios.
Las importantes mejoras que Google ha introducido en estos años se basan casi enteramente en su acceso único a enormes cantidades de textos traducidos, miles de millones de oraciones y billones de palabras, que pueden ser revisados para buscar coincidencias en segundos. Buena parte de esos datos proviene de transcripciones de las reuniones de las Naciones Unidas, que habitualmente son traducidas por seres humanos a seis idiomas, y de las del Parlamento Europeo, que se traducen a 23 lenguas.
Google ha incorporado texto de su gran proyecto de escaneo de libros y de otras fuentes de Internet para sumar aun más elementos a esa base de datos sintácticos. (En esto, supera a sus principales rivales en la traducción, Bing de Microsoft y Babel Fish de Yahoo, que se basan más o menos en los mismos principios.) Como empresa, Google acostumbra poner de relieve las posibilidades de este esfuerzo. Este año, por ejemplo, anunció que la herramienta de traducción iba a combinarse con una aplicación de análisis de imágenes que permitiría a una persona tomar con el celular la foto de un menú en chino y recibir una traducción instantánea al inglés. Este verano boreal, sugirió que utilizaría tecnología de reconocimiento de voz para generar subtítulos en los videos de YouTube en inglés, que entonces podrían ser inmediatamente doblados a otros cincuenta idiomas.
“Esta tecnología puede hacer desaparecer la barrera idiomática”, señaló Franz Och, que dirige el equipo de traducción mecanizada de Google. “Permitirá que cualquiera se comunique con cualquiera.”
Esa promesa utópica es seductora. En su último libro, The Last Lingua Franca, Nicholas Ostler, presidente de la Foundation of Endangered Languages, afirma que los motores de traducción como los de Google llegarán a liberar al mundo de la necesidad de aprender los idiomas dominantes, como el inglés, y fortalecerán la diversidad lingüística. Ostler me dijo que estaba convencido de que estos cambios son inevitables: “El futuro es fácil de predecir, aunque no se sabe cuándo ocurrirá”.
Pese a hablar bastante fluidamente 26 idiomas, Ostler a menudo recurre al sitio de Google Translate y considera que este representa ese futuro. “Aun cuando no nos guste lo que dice, de inmediato podemos entender lo que nos devuelve o compararlo con lo que sabemos. Sigue necesitando inteligencia constructiva de parte del usuario. Pero la realidad es que es mucho mejor que antes y sin duda continuará mejorando.”
¿Una de las consecuencias de su mayor aceptación será que la gente se volverá más haragana para aprender idiomas?
"En esto", dice Ostler hay cierta ironía. Aunque quizá veamos un futuro más multilingüe conforme el inglés comience a retroceder, veremos menos multilingüismo en los individuos.” Las lenguas que más rápido crecen en la Red, señala en el libro, son el árabe, el chino mandarín, el portugués, el español y el francés, en ese orden. “Lo central del crecimiento en Internet”, sugiere, “pasa por la diversidad lingüística, no por la concentración.”
Dado lo confuso de muchas traducciones mecanizadas en la actualidad, ¿la lengua común no seguirá estando tan lejos como siempre?
Ostler sostiene que “la producción en masa siempre nos da cosas de menor calidad que lo artesanal. Lo mismo pasa con Google Translate. Aun así, no hay duda de que cuantos más datos ingresen, cuantos más idiomas se incorporen, mejor va a ser”.
Los que trabajan en las versiones más avanzadas de los modelos de traducción suelen ser un poco más cautos respecto del futuro. Phil Blunsom, que enseña aprendizaje automático y lingüística en Oxford y participó en la creación de herramientas de traducción de próxima generación, opina: “La mayoría de las dificultades que afrontamos pasan por lo que denominamos ‘ductilidad’. Aun en las combinaciones de palabras más simples, estamos revisando un universo gigantesco de opciones posibles. Para que una computadora pueda entender cómo funciona una oración, tiene que recorrer todas las opciones posibles de una estructura sintáctica entre diferentes palabras y luego deducir cuál es la más probable. Es un problema de computación exponencial, sobre todo cuando las oraciones se vuelven más largas y complejas”.
Andreas Zollmann, que se dedica a la investigación en este campo desde hace mucho y trabaja en Google Translate desde hace un año, sugiere, como Blunsom, que la idea de que pueden introducirse más y más datos para hacer que el sistema sea cada vez mejor probablemente sea una falsa premisa. “Cada vez que se duplicó la cantidad de datos traducidos introducidos, la calidad del resultado mejoró 0,5%”, afirma, pero esa duplicación no es infinita. “Ahora hemos llegado a un límite en el que no hay en el mundo muchos más datos que podamos usar”, reconoce. “Por eso, ahora es mucho más importante sumar otros enfoques y modelos basados en normas.”Allí es donde comienzan los viejos problemas.
¿Zollmann vislumbra algún camino para que esos modelos con el tiempo puedan aprender idiomas tan bien como lo hacen los seres humanos?
“Ningún investigador esperaría que llegaran a ser perfectos”, dice. “Los pronombres, por ejemplo, son muy difíciles en algunos idiomas en los que el masculino y el femenino no coinciden. Si alguna vez se resolviera la traducción mecanizada de manera perfecta, tendríamos algo que es artificialmente inteligente. La lengua no es algo independiente de lo que somos.” En consecuencia, hay quienes piensan que, lejos de liberarnos de las barreras lingüísticas, las herramientas de traducción en realidad servirán para reforzarlas.
Douglas Hofstadter, autor de Gödel, Escher, Bach: An Eternal Golden Braid, un libro fundamental sobre la conciencia y la inteligencia de las máquinas, así como de varios libros sobre la teoría y la práctica de la traducción, es uno de los críticos más cáusticos del entusiasmo exagerado suscitado por Google Translate. Sostiene que la capacidad de existir dentro de la lengua y de moverse entre lenguas, de entender el tono y la resonancia cultural, los chistes, los juegos de palabras y las expresiones idiomáticas son lo que nos hace más humanos y más individuos (uno de sus libros se basó en pedir a ochenta personas que tradujeran el mismo poema y deleitarse con las ochenta versiones diferentes que obtuvo).
Los modelos estadísticos, dice, comienzan en el lugar equivocado. “No hay ningún intento de crear comprensión y por lo tanto Google Translate está condenado al mismo fracaso eterno. Por supuesto que a veces obtiene buenos resultados pero básicamente es muy tonto. Brinda un servicio de muy baja calidad que siempre producirá algo que no supera mucho el nivel del disparate. Supongo que todos cederemos a las presiones para usarlo en algún momento, pero nunca captará el sabor de las frases.”
Hofstadter sugiere que así como parece gustarnos, perversamente, la idea de que el mundo sea cada vez más pequeño, también nos gusta pensar que entender la lengua de algún modo es algo mecánico, otro problema que podemos tercerizar a nuestras pantallas. “Entender el mundo es aquello para lo que tienen habilidad los seres humanos y para lo que no la tienen en lo más mínimo las máquinas. Puede que pronto todos seamos usuarios de Google Translate pero también puede que descubramos que, ahora más que nunca, nos hemos perdido en la traducción.”
No hay comentarios:
Publicar un comentario