A língua que a inteligência artificial fala sem pensar
Consumo sem soberania, adoção sem agenda: o Brasil na geopolítica da IA
Sim, é verdade que o Brasil é um dos maiores mercados mundiais de Inteligência Artificial. Lideramos a adoção na América Latina, onde 67% dos profissionais de tecnologia afirmam que as suas organizações aceleraram o uso da IA nos últimos dois anos, um número acima da média mundial, que fica nos 59%[1]. Para coroar, o governo federal anunciou investimentos de R$ 23 bilhões até 2028 para o setor[2]. Celebramos os números, eventos lotam auditórios e a palavra “protagonismo” viraliza nos discursos oficiais e no mundo corporativo.
Como estudioso da linguagem, de IA e amante confesso da língua portuguesa, prefiro admirar tudo isto e perguntar-me: “em que idioma raciocina a Inteligência Artificial que o brasileiro adotou tão rapidamente e com tanto entusiasmo?”
E é claro que a IA pensa em inglês. É a estrutura arquitetada nos modelos dominantes, com consequências que vão muito além do mero vocabulário ou semântica. O que há por trás disso é, na verdade, uma questão geopolítica que nem o Brasil nem o Sul Global ainda tiveram a coragem de enfrentar. E o momento ideal é agora.
O que está em jogo
Não é nenhuma novidade que os grandes modelos de linguagem (LLM) aprendem a partir de textos. Quanto mais material existir numa determinada língua e perspectiva de mundo, mais esse idioma e essa perspectiva moldam o sistema. O Llama 2, da Meta, foi treinado com 89,7% dos dados em inglês[3]. Já o GPT-3, da OpenAI, era ainda mais assimétrico: a língua inglesa representava 92,7% do seu corpus, o francês 1,8%, o alemão 1,5%, e o português ficava abaixo de míseros 1%, ao lado de quase todos os demais vernáculos[4].
Se esse desequilíbrio quantitativo é fato documentado, o qualitativo vai ainda mais fundo.
Um LLM treinado maioritariamente em inglês não produz apenas respostas menos precisas noutras línguas. Ele organiza todo o conhecimento seguindo as categorias de tradição intelectual anglófona, branca e eurocêntrica, moldada por séculos de produção acadêmica e científica nesse idioma. Quando gera texto em português, a IA traduz palavras sem verter a epistemologia que organiza o seu “pensamento”.
Uma pesquisa publicada no PNAS Nexus avaliou cinco versões consecutivas do GPT em 107 países e concluiu que as respostas tendem a refletir os valores de países anglófonos e protestantes da Europa, independentemente da língua utilizada[5]. Outro trabalho, dedicado às limitações do alinhamento por reforço a partir de feedback humano, mostra que o processo herda as preferências e os enviesamentos dos anotadores recrutados para o treino, em regra contratados sob expectativas culturais ocidentais[6].
Mas precisamos, aqui, fazer uma grande distinção. Uma coisa é perguntar à IA qual é a capital do Acre. Outra, radicalmente distinta, é perguntar o que significam família, fé, prosperidade, pobreza, democracia ou desenvolvimento e receber respostas formadas a partir de perspectivas que não sejam as do Sul Global, nem as de sociedades moldadas por séculos de exploração, escravidão e colonização.
O sociólogo peruano Aníbal Quijano nomeou este fenômeno como “colonialidade do poder”, a persistência de estruturas de dominação cognitiva mesmo após o fim formal do colonialismo, pela imposição de categorias eurocêntricas apresentadas como universais[7]. A Inteligência Artificial, na forma como caiu no nosso colo, é mais um veículo desse processo, e talvez o mais eficaz, pela capacidade de fazer escalar o pensamento do colonizador e, simultaneamente, manter o seu mecanismo invisível.
A lição do TRIPS e os seus limites
Para posicionarmos o problema politicamente, vale recorrer a um precedente, com a ressalva de que a analogia tem limites claros.
Em 1994, o Brasil assinou o Acordo TRIPS no âmbito da OMC, que fixou as regras globais de propriedade intelectual, incluindo as patentes farmacêuticas. O resultado foi uma dependência intrínseca de medicamentos que custou vidas durante décadas. Em 2007, o governo emitiu o licenciamento compulsório do efavirenz e passou a importar genéricos da Índia por cerca de US$ 170 por paciente ao ano, contra os US$ 580 cobrados pela Merck. A economia projetada até 2012 chegou a maravilhosos US$ 236,8 milhões[8].
A geopolítica da IA partilha com o TRIPS uma mesma lógica: quem não está presente na sala quando se escreve as regras, paga um preço alto por gerações. A semelhança, porém, terminam aqui. O TRIPS bloqueava o acesso por via jurídica, mas contra isso o Brasil dispunha do licenciamento previsto no próprio acordo e da capacidade de produção da Farmanguinhos. Já no caso da chamada “IA de fronteira”, o impedimento é material, e não existe equivalente nacional a Farmanguinhos. Não há genérico de um modelo fundacional de IA que o país consiga fabricar.
Existem, sim, os modelos de código aberto, tecnicamente acessíveis. Nenhuma lei impede que o Brasil treine os seus próprios sistemas. O impedimento, porém, vem do fato de que customizar ou auditar variantes locais de um LLM exige uma capacidade computacional que o país não possui. Código aberto na periferia econômica não é soberania. É, no fundo, uma forma subsidiada de consumir tecnologia alheia, estrangeira. O Brasil não dispõe de supercomputadores capazes de treinar modelos fundacionais de fronteira, e os R$ 23 bilhões em 4 anos, algo em torno de US$ 4 bilhões, são irrisórios diante dos mais de US$ 300 bilhões que Amazon, Google, Microsoft e Meta investiram em infraestrutura apenas em 2025, valor que as próprias empresas reviram em alta ao longo do ano até se aproximar dos US$ 380 bilhões[9]. A Índia, com base demográfica e tecnológica superiores à brasileira, enfrenta a mesma assimetria. Ou seja, possuir números massivos de consumidores não significa ter o direito de votar e participar das decisões sobre o desenvolvimento da tecnologia.
O efavirenz ensina-nos que a dependência pode ser parcialmente revertida quando há vontade política e capacidade de agir dentro dos espaços disponíveis de manobra. O Brasil conseguiu o licenciamento porque construiu argumentos, mobilizou a opinião pública internacional e explorou o que o sistema permitia. Há margens semelhantes na governança da IA. Podem ser mais estreitas e custosas, mas existem.

A ilusão dos ingredientes
Também fico comovido quando leio que o Brasil reúne os ingredientes e condições para um papel diferente, com mais protagonismo, na disputa global pela IA. Temos mais de 215 milhões de falantes de português, a CPLP ao nosso lado e o maior mercado da América Latina. A comunidade lusófona soma hoje cerca de 270 milhões de pessoas, e as projeções das Nações Unidas apontam crescimento populacional sustentado nas próximas décadas, sobretudo nos países africanos (PALOP)[10].
Temos iniciativas promissoras, como a Maritaca AI, startup fundada por pesquisadores da Unicamp, que desenvolveu o Sabiá, um LLM treinado em português e orientado para a realidade brasileira[11]. O próprio governo inscreveu, entre os objetivos do Plano 2024-2028, o desenvolvimento de modelos avançados de linguagem em português, com dados nacionais que contemplem e abarquem a diversidade cultural, social e linguística do nosso país[12].
É uma lástima que ter ingredientes nem sempre queira dizer possuir capacidade. Mercado consumidor não se traduz em poder de negociação sobre arquitetura matemática. Projeções demográficas da CPLP não significam infraestrutura computacional nem alteram o fluxo de semicondutores. Reunir economias periféricas que ainda lutam contra as suas urgências mais básicas e profundas não gera soberania de hardware.
É evidente que a articulação com os países lusófonos irmãos é um imperativo de longo prazo. Eu mesmo sou um árduo defensor e militante dessa ideia, mas tratá-la como alavanca imediata na geopolítica da IA confunde potencial com realidade.
A janela existe, sim. O Brasil, porém, observa-a com entusiasmo de utilizador, em vez de a atravessar com estratégia.
Entusiasmo sem agenda
Quando comparo o ceticismo europeu com a IA à empolgação “novidadeira” dos brasileiros, percebo que o Brasil a adotou com a pressa de quem não deseja perder o bonde da modernidade. Todavia, esta foi uma adoção passiva. Somos um mercado consumidor de grande porte sem sermos um interlocutor que negocia os termos da tecnologia que consumimos.
O IBGE confirmou que 41,9% das indústrias com mais de 100 trabalhadores já integraram alguma forma de IA, ante 16,9% em 2022[13]. Cerca de 70% dos estudantes brasileiros já recorrem à IA[14]. Quanto ao mercado nacional, as projeções variam muito conforme a metodologia e o escopo considerado: o IDC estima os gastos brasileiros com IA em mais de US$ 2,4 bilhões em 2025, ao passo que estudos com horizonte em 2030 vão de US$ 16,3 bilhões a US$ 49,2 bilhões. A própria dispersão dos números é reveladora do quanto ainda se especula sobre um setor que mal começamos a mensurar[15].
O país gasta bilhões consumindo IAs produzidas fora, que “pensam” exatamente como o colonizador setentrional estrangeiro. Subitamente adota ferramentas cujas arquiteturas e organização do conhecimento foram construídas noutro idioma e ao serviço doutros interesses, sem o direito de exigir acesso aos dados de treino, sem influência sobre os critérios de curadoria e sem representação nos consórcios que decidem os rumos éticos da tecnologia.
Rodrigo Nogueira, da Maritaca AI, afirma que o país fica à mercê de empresas como a Meta e a OpenAI, e que, se elas decidirem parar de oferecer os seus produtos, ficamos na mão delas. E ele está certo, pois descreve uma dependência com precedentes na experiência brasileira[16]. E o próprio diagnóstico é bastante revelador. Treinar modelos em português, reconhece ele, não faz desaparecer os problemas do Brasil. Reduzir vieses ideológicos e construir algo que represente os interesses do país e das suas minorias continua a ser um desafio.
Um modelo que fale português não basta. Seria preciso um que raciocine a partir de categorias adequadas à realidade brasileira e do Sul Global, que pense a partir da nossa epistemologia. Mas isso exige um esforço bem orientado e equalizado politicamente que, até hoje, ninguém apresentou.
A contradição sem resolução
Sejamos honestos sobre o que podemos ou não fazer.
A agenda do pluralismo cognitivo envolve participação nos fóruns onde se definem os critérios de alinhamento, investimento em pesquisa sobre benchmarks que reflitam a diversidade epistêmica do Sul Global e construção de alternativas técnicas independentes da infraestrutura proprietária norte-americana. Sim, tudo isto é necessário e materialmente inviável a curto prazo. Argumentos temos de sobra. Faltam-nos, porém, capital e vontade política.
Não seria mais barato ajustarmos o prompt? O mesmo estudo do PNAS Nexus que citei mostra que uma simples instrução de identidade cultural no prompt melhorou, sim, o alinhamento dos modelos mais recentes para a larga maioria dos países avaliados. Acontece que o ajuste por prompt não corrige a estrutura decisória do que seja aceito como resposta razoável. Ou seja, deixa intacta a gramática profunda, mitigando apenas o sotaque. Continuar dependente de quem define essa gramática é o problema que nenhum prompt resolve.
Emily Bender, Timnit Gebru e colaboradores já alertavam, ainda em 2021, que estes sistemas herdavam e amplificavam os vieses do corpus em que foram treinados, incluindo os culturais e epistêmicos mais enraizados[17]. Mudar os dados de treino sem intervir nos critérios de alinhamento e nos benchmarks de avaliação é insuficiente. E intervir nesses critérios exige um poder que o Brasil, infelizmente, não detém.
A diversidade linguística interna ao país, com 295 línguas indígenas ainda vivas além do português[18], é um recurso estratégico de longo prazo que tampouco resolve qualquer urgência atual.
Articular uma resistência no Sul Global não pressupõe um bloco coeso nem uma aliança unificada. A Índia e os Emirados Árabes Unidos investem em infraestrutura proprietária e fecham parcerias diretas com fabricantes de chips. Até competem, mas sem resistência. O que se pode explorar é uma convergência de interesses parciais entre economias periféricas que partilhem o mesmo problema da dependência epistêmica sem partilharem as mesmas soluções. Tornar essa convergência visível pode elevar o custo político da exclusão ao ponto de pesar no bolso do tecnofeudalismo americano, parafraseando Yanis Varoufakis.
Este ensaio não resolve a contradição porque ela não tem, hoje, resolução disponível. O que tem é urgência, e razão de sobra para nomear o mecanismo antes que a janela se feche.
A pergunta que o Brasil não faz
O Brasil precisa de escolher que papel deseja ocupar na geopolítica da Inteligência Artificial.
Pode escolher seguir como um mercado consumidor lucrativo para a meia dúzia que produz a tecnologia. E há beneficiários concretos dessa escolha: as consultorias de integração que crescem precisamente porque o país não produz IA. É a camada que mais lucra ao intermediar ferramentas importadas para a massa consumidora, e que nenhum interesse econômico tem em questionar a arquitetura que as sustenta. A passividade do país diante desse cenário é, em parte, também resultado de quem lucra com ela.
A alternativa não é uma diplomacia de protocolo nem uma integração passiva nos fóruns que historicamente validam o poder concentrado. Precisamos de uma dissidência ativa. Ou seja, somar forças com o Sul Global para juntos questionarmos os critérios impostos como “neutros” pelas IAs e Big Techs do Norte e tornarmos-lhes visível o preço da nossa exclusão. Não tenho ilusões quanto à dificuldade disto. Além de ser caro e incerto. Mas, ainda assim, denunciar toda a engrenagem e o jogo está ao nosso alcance, e é melhor do que o atual silêncio passivo.
O português é a quinta língua materna mais falada do mundo. O Brasil é a maior economia da América Latina. Enquanto soltamos foguetes comemorando os números superlativos da nossa mera adoção passiva, meia dúzia lá do Norte decide em que idioma, cultura, agenda, ciência, pauta ideológica e ponto de vista a IA que consumimos aqui pensará antes de nos dar respostas. O Brasil, com ou sem a CPLP, não está no clubinho dos decisores. E parte considerável de quem poderia participar dele prefere que as portas continuem fechadas, para não perder “a boquinha”.
Fabricio Zavarise é educador, escritor e consultor. Mestre em Educação Linguística pela Universidade de Chichester (Reino Unido), especialista em Educação Bilíngue e MBA em Gestão Estratégica & IA pela UFJF. Escreve sobre linguagem, educação, liderança, inovação e inteligência artificial aplicada.
[1] IBM. Global AI Adoption Index 2023. Pesquisa conduzida pela Morning Consult, novembro de 2023, junto a profissionais de TI de 6 países latino-americanos (Argentina, Brasil, Chile, Colômbia, México e Peru). Os 67% da América Latina situam-se acima da média global de 59%.
[2] BRASIL. Ministério da Ciência, Tecnologia e Inovação. IA para o bem de todos: Plano Brasileiro de Inteligência Artificial 2024-2028. Brasília: MCTI, 2024.
[3] TOUVRON, Hugo et al. Llama 2: open foundation and fine-tuned chat models. arXiv:2307.09288, 2023. Distribuição linguística do corpus de pré-treino na Tabela 10.
[4] BROWN, Tom B. et al. Language models are few-shot learners. arXiv:2005.14165, 2020. Percentuais por língua segundo as estatísticas oficiais do conjunto de dados do GPT-3 (OpenAI), em que o inglês corresponde a 92,7% do corpus.
[5] TAO, Yan; VIBERG, Olga; BAKER, Ryan S.; KIZILCEC, René F. Cultural bias and cultural alignment of large language models. PNAS Nexus, Oxford, v. 3, n. 9, pgae346, set. 2024. DOI: 10.1093/pnasnexus/pgae346.
[6] CASPER, Stephen et al. Open problems and fundamental limitations of reinforcement learning from human feedback. arXiv:2307.15217, 2023.
[7] QUIJANO, Aníbal. Colonialidad del poder, eurocentrismo y América Latina. In: LANDER, Edgardo (org.). La colonialidad del saber: eurocentrismo y ciencias sociales. Buenos Aires: CLACSO, 2000. p. 201-246.
[8] RODRIGUES, Wildo Carlos Vernaglia; SOLER, Orlando. Compulsory licensing of efavirenz in Brazil in 2007: contextualization. Revista Panamericana de Salud Pública, Washington, v. 26, n. 6, p. 553-559, 2009. DOI: 10.1590/S1020-49892009001200012.
[9] Dados consolidados a partir dos resultados trimestrais reportados pelas próprias empresas ao longo de 2025 (Alphabet, Amazon, Meta e Microsoft), compilados pela CNBC (31 out. 2025) e pela Visual Capitalist com base em registros junto à SEC. As empresas reviram em alta as projeções de capital ao longo do ano, levando o consolidado de mais de US$ 300 bilhões a aproximar-se dos US$ 380 bilhões. A conversão dos R$ 23 bilhões do Plano Brasileiro de IA para cerca de US$ 4 bilhões considera a taxa de câmbio aproximada do período.
[10] NAÇÕES UNIDAS. World Population Prospects 2024. Nova York: United Nations, 2024. População da CPLP segundo dados da própria comunidade.
[11] MARITACA AI. Sabiá: modelo de linguagem em português. Campinas: Maritaca AI, 2023.
[12] BRASIL. MCTI, op. cit., p. 12.
[13] IBGE. Pesquisa de Inovação Semestral (PINTEC Semestral): tecnologias digitais avançadas. Rio de Janeiro: IBGE, 2025.
[14] FUNDAÇÃO ITAÚ. IA na educação brasileira. São Paulo, 2025.
[15] Estimativa de gastos para 2025 segundo o IDC, citada pela revista Exame. As projeções para 2030 reúnem Statista/KPMG (US$ 16,3 bilhões) e Grand View Research (US$ 49,2 bilhões); a divergência decorre da definição de escopo entre hardware, software e serviços.
[16] ICL NOTÍCIAS. Governo Lula diz querer construir uma “IA soberana” brasileira. 2024.
[17] BENDER, Emily M. et al. On the dangers of stochastic parrots: can language models be too big? In: Proceedings of the ACM Conference on Fairness, Accountability, and Transparency. Nova York: ACM, 2021. p. 610-623. DOI: 10.1145/3442188.3445922.
[18] IBGE. Censo Demográfico 2022: etnias e línguas indígenas. Rio de Janeiro: IBGE, 2025.

