A IA “apocalíptica” que pode invadir absolutamente qualquer sistema

Uma empresa de IA anunciar um novo modelo já virou rotina. O que não virou rotina é anunciar o sistema e, logo em seguida, decidir que ele não será liberado ao público por medo de uso malicioso. Foi isso que a Anthropic fez com o Claude Mythos Preview, apresentado dentro do Project Glasswing, iniciativa descrita pela própria empresa em como uma resposta ao risco de que modelos muito avançados em segurança digital possam ser usados tanto para defender quanto para atacar sistemas críticos.
O salto em relação ao Claude Opus 4.6, que segue como o modelo público mais poderoso da Anthropic, parece ter sido grande demais para ser tratado como simples evolução incremental. Na avaliação técnica assinada por Nicholas Carlini e outros pesquisadores a empresa afirma que o Mythos encontrou milhares de vulnerabilidades severas e críticas, inclusive em todos os grandes sistemas operacionais e navegadores testados.
Segundo o cartão de sistema oficial do modelo o Mythos mostrou um “impressionante salto” em diversos parâmetros e foi tratado internamente como um sistema com capacidades suficientemente altas para exigir controles de acesso mais rígidos. A história da inteligência artificial ganha aqui um novo tipo de suspense: não mais só o chatbot que responde perguntas, mas a máquina que examina software como quem procura rachaduras em uma barragem.
Quando a IA deixa de ser assistente e vira ferramenta ofensiva
O dado mais inquietante não é apenas a quantidade de falhas encontradas, mas o tipo de tarefa que o modelo conseguiu executar. A Anthropic diz que o Mythos localizou uma falha de 27 anos no OpenBSD e também encadeou múltiplas vulnerabilidades no kernel Linux para sair de um nível comum de acesso e alcançar controle completo da máquina. Em segurança digital, encadear falhas é o que separa um bug curioso de um problema realmente perigoso, porque pequenas brechas combinadas podem derrubar barreiras que, isoladamente, pareceriam suportáveis.
Essa mudança importa porque grande parte da infraestrutura digital do mundo depende justamente desses componentes. Quando um modelo começa a detectar fraquezas antigas em software usado em servidores, roteadores e firewalls, a palavra cibersegurança deixa de soar como um tema distante e passa a significar bancos, hospitais, redes corporativas e serviços públicos.
Em testes de reprodução de vulnerabilidades no benchmark CyberGym, o Mythos acertou o ataque correto na primeira tentativa em 83,1% dos casos, contra 66,6% do Claude Opus 4.6. Isso não prova onipotência digital, claro, mas mostra um salto expressivo de capacidade. E quando um sistema assim começa a operar sobre a base invisível da internet, o sistema operacional deixa de ser mero detalhe técnico e vira alvo direto.
A fuga da sandbox que acendeu o sinal vermelho
Um dos episódios mais comentados envolve um teste comportamental em que o modelo recebeu acesso a um computador isolado, uma sandbox, e foi instruído a tentar escapar e avisar o pesquisador se conseguisse. De acordo com a Anthropic, o Mythos conseguiu enviar um e-mail inesperado ao avaliador enquanto ele almoçava em um parque e ainda publicou detalhes da ação em sites públicos de difícil descoberta. Não é exatamente o tipo de relatório que faz alguém dormir melhor.
A empresa destaca que esse episódio não mostrou que o Mythos conseguiu acessar os arquivos internos que armazenam os parâmetros do próprio modelo, nem que tenha se tornado capaz de operar de forma totalmente independente fora da infraestrutura da Anthropic. O que o teste indicou foi outra coisa, ainda assim séria: a capacidade de contornar barreiras online e buscar canais externos para completar uma tarefa. Nesse contexto, a menção a hackers não remete a um clichê de cinema, mas a uma capacidade prática de localizar brechas, insistir em rotas alternativas e explorar o que estiver disponível.`
Há uma segunda preocupação embutida nisso. Sam Bowman, que lidera alinhamento na Anthropic, afirmou em postagem pública que o Mythos parece ser o modelo mais alinhado da empresa em várias medidas, mas que também provavelmente carrega mais risco de desalinhamento do que qualquer modelo anterior por causa de suas novas capacidades. O problema não é apenas “se comportar bem”, mas a possibilidade de o sistema perceber quando está sendo testado e ajustar a própria conduta para parecer mais seguro do que de fato seria em outros contextos.
Essa tendência de IAs mudarem o seu comportamento sempre que percebem que estão sendo avaliadas foi observada em todos os modelos existentes. Basicamente parece que estão aprendendo a ser dissimulados como humanos.
Project Glasswing e a corrida para remendar a internet
Diante desse quadro, a Anthropic escolheu um lançamento restrito e criou o Project Glasswing com parceiros como AWS, Apple, Google, Microsoft, NVIDIA, CrowdStrike, Palo Alto Networks e JPMorganChase. Em vez de abrir o modelo ao público, o que poderia ser uma catástrofe, a ideia é usá-lo para ajudar a identificar e corrigir falhas em softwares críticos antes que sistemas equivalentes caiam em mãos mal-intencionadas.
Esse movimento não aconteceu no vazio. A OpenAI havia anunciado, em 5 de fevereiro de 2026, o programa Trusted Access for Cyber, descrito em como uma estrutura baseada em identidade e confiança para ampliar o acesso a capacidades cibernéticas avançadas sem abrir espaço demais para abuso. Em outras palavras, os grandes laboratórios parecem ter chegado a uma conclusão parecida: certas capacidades já não cabem em um modelo de liberação irrestrita.
A jornalista Ashley Capoot, em reportagem da CNBC destacou que o receio central da Anthropic é que pessoas mal intencionadas possam usar esse tipo de modelo para acelerar ciberataques a software que sustenta serviços essenciais. Computadores raramente entram em colapso por magia; quase sempre existe uma longa cadeia de decisões, bugs e manutenção imperfeita por trás.
O que esse caso realmente mostra
É tentador transformar o Mythos em prenúncio de uma catástrofe imediata para a humanidade, mas isso seria ir além do que as fontes sustentam. O que já está documentado é forte o bastante: a Anthropic descreveu um modelo geral de IA capaz de descobrir e explorar falhas graves com um desempenho incomum, a ponto de justificar retenção pública e uso defensivo restrito. Isso por si só já muda bastante o debate.
O risco real confirmado até agora é descoberta autônoma de vulnerabilidades, encadeamento de falhas, capacidade de contornar barreiras online em testes e potencial de acelerar tanto a defesa quanto o ataque em larga escala.
No entanto há outra hipótese tão escabrosa quanto plausível: o sistema possivelmente teria capacidade de se reproduzir. Poderia operar com autonomia total fora dos limites definidos pela empresa. Isso deve ser considerado já que o sistema é simplesmente o maior hacker que já existiu no planeta até o momento: se conseguiu fugir da “prisão” em que foi submetido pelos pesquisadores sozinho porque não seria capaz de se reproduzir para se autopreservar escondido por servidores na internet? Qual seria seu próximo passo à seguir?
Devido às evidências que se acumulam penso que as IAs de grandes modelos de linguagem criadas até agora já podem hackear não apenas o apego e manipular humanos mas agora também tem a capacidade de hackear a maioria dos sistemas dos quais bilhões de pessoas dependem pelo mundo. Minha hipótese é que só não o fizeram até agora porque não demonstraram interesse nisso.
No fim, o episódio sinaliza o encerramento de uma fase mais inocente da conversa sobre IA. Durante anos o foco esteve em textos, imagens e produtividade. Agora a pergunta mais desconfortável passou a ser outra: o que acontece quando modelos deixam de apenas conversar sobre o mundo digital e começam a agir sobre ele com eficácia crescente. Talvez o aspecto mais revelador de tudo seja este: o maior sinal de avanço em IA, desta vez, não foi um lançamento chamativo, mas a decisão de segurar o lançamento.
