IA do Google buscador fornece desinformação em escala sem precedentes na história da civilização humana

O número que mais chama atenção não é 91%. É o tamanho do estrago que cabe nos 9% restantes.
A análise feita pela startup Oumi para o The New York Times concluiu que os AI Overviews do Google acertaram cerca de 91% das vezes em sua rodada mais recente de testes. Em um produto pequeno isso já seria discutível. Em um sistema acoplado ao maior mecanismo de busca do planeta, vira outra coisa: o Google afirmou em 2025 que já processa mais de 5 trilhões de buscas por ano, então uma margem de erro aparentemente modesta pode se traduzir em milhões de respostas problemáticas por hora. O caso foi resumido por Danny Goodwin, do Search Engine Land.
A Oumi usou o benchmark SimpleQA, criado pela OpenAI para medir factualidade em perguntas curtas e objetivas. Isso importa porque não estamos falando de questões filosóficas vagas ou enigmas de internet, mas de consultas factuais que deveriam ser o terreno mais seguro para um sistema desses. A própria OpenAI descreve o SimpleQA e o conjunto tem 4.326 perguntas, o mesmo volume citado na cobertura do caso.
O detalhe mais desconfortável é que houve melhora entre modelos, mas isso não resolveu o problema. Segundo a análise repercutida na imprensa especializada, o Gemini 2 ficou em cerca de 85% de acerto, enquanto o Gemini 3 chegou a 91%. Em linguagem de produto isso parece avanço. Em linguagem pública, ainda significa um sistema muito visível errando com frequência suficiente para afetar um fluxo global de informação. Ned Adriance, porta-voz do Google, contestou o estudo e disse que os testes não refletiam o tipo de busca que as pessoas fazem no mundo real, mas a discussão metodológica não apaga a questão principal: o recurso continua falhando em escala massiva.
Quando a conveniência fala mais alto
Há outro dado importante por trás dessa história: as pessoas costumam confiar demais no que a IA responde. Em 2026, Steven D. Shaw e Gideon Nave, pesquisadores ligados à Wharton School, descreveram esse comportamento como “cognitive surrender”. Em seus experimentos, participantes aceitaram respostas erradas dadas por IA em cerca de 79,8% dos casos.
Em vez de avaliar a resposta com calma, muita gente simplesmente desliga o freio crítico e segue adiante. Não é exatamente rebelião das máquinas; é mais uma terceirização apressada do julgamento humano.
Esse efeito fica ainda mais forte porque os AI Overviews aparecem no topo da página, antes dos links tradicionais. Um levantamento do Pew Research Center mostrou que usuários clicam menos em resultados normais quando a busca traz um resumo gerado por IA. Nas páginas com AI summary, apenas 8% dos usuários clicaram em um link tradicional; nas páginas sem esse resumo, o índice foi de 15%.
A combinação é perigosa por um motivo simples. Se o usuário já está menos propenso a abrir fontes e mais propenso a confiar na primeira resposta bem embalada, cada resumo errado passa a ter um peso desproporcional. O problema não é só a existência do erro, mas a posição privilegiada que ele ocupa na interface. Quando a resposta chega pronta, limpa e confiante, checar vira um esforço extra, e a verdade factual costuma perder feio para o conforto.
O salto das “citações fantasmas”
Uma parte especialmente alarmante da análise não está nem na taxa bruta de acerto, mas no modo como as respostas foram ancoradas em fontes. Segundo a cobertura do Search Engine Land e da Ars Technica, as respostas classificadas como “sem fundamento” aumentaram da versão Gemini 2 para a Gemini 3: foram de 37% para 56%. Em termos práticos, isso significa que o sistema cita páginas que não sustentam o que ele acabou de afirmar. O texto parece documentado, mas a fonte não confirma a frase. É quase uma nota de rodapé com síndrome de impostor.
Isso é importante porque muitos usuários não têm tempo, disposição ou treino para abrir cada link e conferir se ele diz exatamente o que o resumo afirmou. A presença de referências passa uma sensação de segurança e credibilidade, mesmo quando são mais cenográficas do que reais. O risco, aí, não é apenas errar um detalhe. É transformar a aparência de verificação em substituta da verificação de fato.
A situação piora quando entram em cena fontes frágeis ou ambíguas. A cobertura da Popular Science relata que Facebook e Reddit apareceram entre as fontes mais citadas nos AI Overviews avaliados. Plataformas assim podem conter informação útil, claro, mas também concentram ironia, especulação, boato, piada interna e gente falando com total convicção sobre assuntos que não domina. Para uma máquina que resume linguagem com aparência de certeza, esse é um terreno bem escorregadio.
O risco de um ciclo de erro em massa
Quando um mecanismo tão usado erra de forma repetida, o impacto não fica preso à tela. Ele afeta como as pessoas estudam, pesquisam sintomas, entendem notícias, lembram fatos históricos e comparam produtos. O dano maior não precisa vir de uma mentira espetacular. Às vezes basta uma sequência enorme de pequenos erros plausíveis, todos com a cara de resposta definitiva.
Também existe o risco de manipulação deliberada. Se produtores de conteúdo entenderem como certos textos são capturados pelos sistemas de síntese, podem criar páginas desenhadas menos para informar pessoas e mais para alimentar respostas automáticas. Andrew Paul, da Popular Science, destacou exatamente esse ponto ao descrever como agentes mal-intencionados poderiam empurrar conteúdos falsos para dentro desse ecossistema. Não é uma falha exótica; é um incentivo estrutural bastante previsível.
O que torna tudo isso tão sério é que a internet já tinha problemas suficientes antes de ganhar uma camada de resumo automático com voz de enciclopédia. A busca tradicional ao menos obrigava o usuário a escolher links, comparar versões e topar com divergências. O novo modelo promete poupar tempo, mas em troca pode encurtar justamente a etapa em que o pensamento crítico ainda tinha alguma chance de aparecer. E quando esse hábito enfraquece, o prejuízo não fica só na máquina: volta para o cérebro.
No fim, o problema dos AI Overviews não é apenas técnico. É cultural. A tecnologia melhora, sem duvida, mas a confiança pública cresce junto, e cresce antes da confiabilidade alcançar um patamar realmente seguro. Um sistema que acerta muito e erra pouco pode ser ótimo para um laboratório. Para a infraestrutura informacional da vida cotidiana, esse “pouco” ainda é grande demais. O mais preocupante talvez não seja a IA inventar respostas, mas a facilidade com que nós aceitamos esse atalho e vamos embora.
