O Google e o imperialismo linguístico

O imperialismo linguístico do inglês produz efeitos muito mais sutis do que permitem apreender as abordagens centradas na “guerra de idiomas”. O fato de utilizar como pivô sempre um único idioma introduz em todos os outros suas lógicas próprias, portanto, irrefletidamente, modos de pensar específicosFrédéric Kaplan e Dana Kianfar

Frédéric Kaplan e Dana Kianfar

6 de janeiro de 2015

No início de dezembro de 2014, quem procurasse no Google Tradutor o equivalente italiano para a sentença “Essa menina é bonita” encontraria uma frase estranha: “Questa ragazza è abbastanza”, literalmente “Essa menina é bastante”. A beleza foi lost in translation –perdida na tradução. Como um dos tradutores automáticos mais eficientes do mundo, com um capital linguístico inigualável, constituído por bilhões de frases, pode cometer um erro tão grosseiro? A resposta é simples: ele passa pelo inglês. “Bonita” se traduz por pretty, e pretty, por abbastanza.

Conhecendo o princípio, fica fácil produzir frases insólitas e até engraçadas. “Acho que você tem um ótimo presidente” vira “Penso che tu abbiauna bella sedia”, que significa “Acho que você tem uma ótima cadeira”, já que “presidente” se traduz como chairem inglês.

O uso do inglês como língua pivô pode produzir absurdos. “Hai fatto un compito terrificante”, ou seja, “Você fez um trabalho terrivelmente ruim”, é traduzido pelo Google como “Você fez um excelente trabalho”, em razão do intermédio do inglês terrific. A expressão idiomática “Está chovendo canivete” transforma-se na poética “Piove cani e gatti” – “Chovem cães e gatos”. Só que essa tradução literal de “It rains cats and dogs” é absolutamente incompreensível para um italiano.

Para desenvolver um tradutor automático, é preciso contar com grandes dossiês de textos idênticos traduzidos de uma língua para outra. Sendo uma empresa norte-americana, o Google logicamente construiu sua ferramenta a partir de pares textuais que utilizam quase sempre o inglês como língua pivô. Para ir do português ao italiano, é necessário, “por princípio”, passar por uma tradução intermediária em inglês.

Esse processo cria um viés linguístico significativo. Português e italiano são línguas relativamente próximas. Em comparação, o inglês é uma língua bem diferente, compacta, rica em expressões idiomáticas. Uma má compreensão do contexto abre caminho para muitos erros. Projetar uma expressão para o mundo anglófono e em seguida reprojetá-la para a língua-alvo produz inovações linguísticas involuntárias.

As formulações estranhas geradas pelos tradutores automáticos podem parecer anedóticas. A tradução em geral e, em particular, a tradução automática colocam problemas notoriamente difíceis. Nessas condições, não é de estranhar que máquinas cometam erros. Aliás, seus erros têm um interesse: levam-nos a pensar sobre as especificidades de cada língua. E, no final, o desenvolvimento de dossiês bilíngues sem o intermédio do inglês e também as correções feitas pelos próprios usuários devem melhorar as traduções. Talvez os erros mencionados neste artigo já tenham sido corrigidos no momento em que ele for enviado “ao prelo” – locução que o Google traduz para o espanhol como “a presionar” – “a apertar”. Vale a pena se preocupar com o fenômeno?

Generalização de fontes “contaminadas”

Para entender os efeitos reais do inglês como língua pivô, devemos colocar a tradução automática no contexto mais amplo dos textos que usam algoritmos na internet. Esses programas não apenas geram inovações linguísticas no contexto das traduções robotizadas, mas também são usados para redigir automaticamente artigos jornalísticos, corrigir sintática e semanticamente o conteúdo das páginas da Wikipédia, produzir mensagens publicitárias direcionadas ou otimizar o conteúdo de uma página para facilitar sua indexação pelos motores de busca.

Como, então, distinguir entre fontes linguísticas primárias, produzidas por seres humanos sem mediação algorítmica (conversas escritas, livros digitalizados etc.), e fontes linguísticas secundárias, resultantes de transformações algorítmicas de fontes primárias?

Com a generalização do recurso de autocompletar em quase todas as interfaces de entrada – o usuário digita o início da frase ou palavra, e um programa completa automaticamente –, os algoritmos tornaram-se intermediários quase sistemáticos quando escrevemos on-line. Em muitos casos, paramos de digitar nossos textos letra por letra ou palavra por palavra: apenas escolhemos entre as várias extensões possíveis propostas pelos algoritmos. Essa forma de escrita combina rapidez e eficiência, especialmente quando se utiliza o teclado reduzido de um telefone celular. Nesse novo contexto, redigir consiste apenas em escolher agilmente um caminho na árvore de expressões previsíveis. Em poucos anos, certamente será difícil encontrar uma interface que não utilize essa tecnologia.

Assim como outras fontes secundárias, os textos gerados algoritmicamente por tradutores automáticos não são necessariamente identificados ou rotulados como tal. Pelo contrário, são com frequência apresentados como fontes primárias, naturais, que os leitores podem até empregar como modelo. Um internauta que não tenha o italiano como língua materna não tem nenhum motivo para achar que a expressão “Piove cani e gatti” esteja errada. A mesma observação vale, forçosamente, para os algoritmos que analisam a estrutura da língua com o objetivo de produzir artificialmente novos textos. Um algoritmo que procure uma fonte primária para otimizar suas capacidades de tradução pode utilizar, inadvertidamente, um texto produzido por outro algoritmo e que traga expressões erradas ou falsos cognatos.

A generalização, na internet, de fontes “contaminadas” por robôs ameaça todo o conjunto de um edifício tecnológico que privilegia a quantidade maciça de dados sobre o controle sistemático de sua qualidade. Já existem muitos exemplos de expressões estranhas na web. Na loja on-line em que a Apple vende seus softwares (AppStore), por exemplo, podemos ler os seguintes comentários sobre um aplicativo que permite digitar mensagens enquanto se caminha: “Intuitivo de usar, belos resultados e novamente de bom humor. Obrigado quem fez esse! É muito legal e recomenda”. Mais adiante, outro comentário compartilha a bizarrice linguística do primeiro: “Ele me ajuda a introduzir o texto horizontal e vertical, enviar mensagens SMS, enviar o e-mail, enviar mensagens em Twitter e Facebook… Muito divertido, obrigado!”.

Essas frases que incorporam os rodeios bizarros dos algoritmos poderão servir de modelo para serviços de mediação textual, como os que autocompletam a frase que você está digitando. Não é impensável que, em algum momento, um italiano que inicie uma frase com “Piove” encontre como continuação proposta “cani e gatti”, frase que provavelmente jamais foi escrita ou pronunciada em toda a história da língua italiana.

A introdução de modos de pensar específicos

Assim, a língua pivô inglesa está potencialmente envolvida em um fenômeno de crioulização: a formação de uma língua nova fundada na transformação, pelo uso, de outras línguas mais antigas – um fenômeno bem conhecido dos linguistas. Atualmente, as alterações introduzidas pela mediação algorítmica constituem uma espécie de pidgin, língua de contato, potencialmente efêmera, entre dois sistemas linguísticos. Mas, à medida que uma nova geração é exposta a essas expressões transformadas, as inovações podem se regularizar e gerar uma língua coerente e autônoma, um crioulo. Esse processo pode ser acelerado pela mediação das novas interfaces de entrada, próteses linguísticas íntimas que podem influenciar fortemente as formas expressivas futuras.

Desse modo, o imperialismo linguístico do inglês produz efeitos muito mais sutis do que permitem apreender as abordagens centradas na “guerra de idiomas”. O fato de utilizar como pivô sempre um único idioma introduz em todos os outros suas lógicas próprias, portanto, irrefletidamente, modos de pensar específicos. Esse fenômeno pode integrar uma transformação linguística global, na qual os algoritmos têm papel fundamental. Enquanto o inglês serve de pivô para as línguas europeias, outros idiomas ocupam a mesma posição em outras famílias linguísticas (o híndi, por exemplo). Assim, estabelece-se em escala mundial uma rede de elos de tradução operando por referência várias línguas intermediárias. Quem, daqui a cinco anos, ainda estará produzindo fontes primárias puras, escritas sem o intermédio de algoritmos? Quanto tempo vai levar para que as primeiras inovações algorítmicas sejam percebidas como formas naturais? Essas escritas híbridas pedem um estudo cuidadoso e, talvez, o desenvolvimento de uma nova linguística, que utilize maciçamente os algoritmos para melhor compreender e acompanhar os efeitos dos algoritmos…

Frédéric Kaplane Dana Kianfar são, respectivamente, diretor e doutorando do laboratório Digital Humanities da École Polytechnique federal de Lausanne, Suíça.

Leia mais sobre o tema:

google

idiomas

imperilalismo

inglês

O Google e o imperialismo linguístico

Cadastre-se para receber os conteúdos do Diplô