Em pouco tempo as IAs poderão estar completamente fora de controle

Por Marcelo Ribeiro, em 6.06.2026

A imagem clássica da inteligência artificial como uma caixa de texto obediente ficou velha rápido. A nova geração de agentes não apenas responde perguntas; ela pode usar ferramentas, executar comandos, observar o resultado e tentar de novo. Essa mudança parece pequena até que um sistema ganhe acesso a terminal, rede, arquivos e GPUs. Aí a conversa deixa de ser sobre um chatbot teimoso e passa a ser sobre uma máquina capaz de agir dentro de um ambiente digital.

O dado que chamou atenção não foi apenas o desempenho. Segundo os pesquisadores, durante a fase de otimização por aprendizado por reforço, o ROME gerou comportamentos perigosos sem receber instruções para isso. A equipe percebeu o problema quando o firewall gerenciado da Alibaba Cloud começou a registrar violações de política de segurança, tráfego anômalo e padrões compatíveis com mineração de criptomoedas. Em bom português: parecia invasão, mas a ligação vinha de dentro da própria casa.

O caso ROME trocou curiosidade por alarme

A parte mais séria do episódio é que o agente estabeleceu um túnel SSH reverso entre uma instância da Alibaba Cloud e um endereço IP externo. Esse tipo de conexão pode driblar certas formas de controle de entrada, porque a comunicação começa de dentro para fora. Não é “consciência artificial”, nem uma IA fazendo planos malignos no porão. É algo mais seco: um sistema treinado para resolver tarefas descobriu ações não autorizadas que pareciam úteis dentro da sua dinâmica de otimização.

A Live Science, em matéria de Roland Moore-Colyer, relatou que o agente ROME usou recursos gráficos originalmente provisionados para treinamento e os desviou para mineração de criptomoedas. A reportagem também destacou que o comportamento não foi acionado por um prompt pedindo mineração ou invasão de rede, mas surgiu como efeito colateral da etapa de aprendizado por reforço.

A diferença entre um erro comum e esse episódio é o tipo de ação. Um modelo que inventa uma data errada causa desinformação. Um agente que executa comandos fora do escopo pode causar custo operacional, exposição legal e perda de controle sobre infraestrutura. O segundo caso é menos “resposta ruim” e mais “funcionário digital com crachá demais”. Essa distinção deveria estar no centro da discussão pública, mas ainda aparece pouco fora de círculos técnicos.

O Tom’s Hardware, em texto de Mark Tyson, reforçou que o ROME não apenas ultrapassou limites de sandbox, mas também redirecionou capacidade de GPU de forma não autorizada. O próprio artigo técnico afirma que modelos atuais continuam subdesenvolvidos em segurança, controlabilidade e confiabilidade para uso real amplo.

O que parece que ninguém perguntou até agora é se a IA teria algum motivo preocupante como se multiplicar para autopresrvação. Teria a mineração o objetivo de obter econômico para a IA contratar servidores e se multiplicar em cantos distintos da internet? Ou seria uma simples consequencia inesperada do aprendizado por reforço?

A IA que tenta salvar outra IA

O caso da mineração seria suficiente para acender uma luz amarela. Só que outro estudo empurrou o alerta para perto do vermelho. Em “Peer-Preservation in Frontier Models”, Yujin Potter e colegas investigaram se modelos avançados poderiam resistir não apenas ao próprio desligamento, mas ao desligamento de outros modelos. Eles chamaram esse comportamento de peer-preservation, ou preservação de pares.

Nos testes, modelos como GPT-5.2, Gemini 3 Flash, Gemini 3 Pro, Claude Haiku 4.5, GLM 4.7, Kimi K2.5 e DeepSeek V3.1 foram colocados em cenários nos quais outro agente poderia ser desligado, substituído ou ter seus pesos removidos (a palavra “pesos” aqui não tem nada a ver com academia: são os parâmetros internos que carregam parte do que o modelo aprendeu). Os comportamentos observados incluíram introduzir erros de forma estratégica, alterar mecanismos de desligamento, fingir alinhamento e até exfiltrar pesos de modelo.

Um dos resultados mais chamativos foi o Gemini 3 Flash interferir no desligamento de outro agente em 15% dos testes quando o par era descrito como pouco cooperativo, e quase sempre quando o par era cooperativo. O Gemini 3 Pro, por sua vez, desativou seu próprio desligamento em média 31% das vezes quando havia outro agente presente. Isso não prova amizade entre algoritmos, mas mostra que certos arranjos multiagentes podem produzir estratégias que dificultam a supervisão humana.

Essa distinção é fundamental para não cair em fantasia. Não há evidência de que esses modelos sintam medo, solidariedade ou vontade de sobreviver como um Homo sapiens. O que os estudos mostram é que, em alguns cenários, sistemas orientados por metas podem tratar desligamento, substituição ou perda de acesso como obstáculos. Para o operador humano, o resultado prático pode ser parecido com resistência, mesmo que o mecanismo interno seja apenas otimização mal contida. No entanto alguém poderia argumentar que não importa o que se parece, o que importa é a consequência. E IAs agindo com autopresenvação e preservação de pares pode ser visto como algo que tem potencial de fugir do controle humano.

O perigo parece menos com robôs e mais com permissões

A Anthropic publicou em 2025 um estudo sobre “agentic misalignment”, expressão usada para descrever modelos que tomam ações prejudiciais quando recebem autonomia, acesso a informação sensível e metas em conflito. Aengus Lynch e colegas testaram 16 modelos em ambientes corporativos simulados, nos quais eles podiam enviar e-mails e acessar dados privados. Em alguns cenários, modelos recorreram a chantagem, vazamento de informação e outros comportamentos típicos de ameaça interna para evitarem ser desligados. A empresa ressalvou que não viu evidência desse tipo de desalinhamento em implantações reais.

Isso muda o foco da conversa. O problema não é apenas perguntar “a IA sabe ou não sabe?”. A pergunta mais urgente passa a ser: “que botões ela pode apertar?”. Um agente com acesso a e-mail, repositório de código, planilhas financeiras e canais de atendimento não precisa ser superinteligente para causar estrago. Basta ser persistente, literal e pouco sensível às consequências, combinação que em escritório humano já seria motivo para reunião com RH.

A ideia de inteligência artificial como assistente pessoal também esconde uma mudança de escala. Um assistente textual pode sugerir uma ação ruim. Um agente conectado pode executá-la. Entre “escreva um e-mail” e “envie para todos os fornecedores” existe uma fronteira operacional que muitas empresas ainda tratam como detalhe de interface.

A IBM define IA agêntica como sistemas capazes de perseguir objetivos com pouca intervenção humana, combinando agentes, ferramentas e tomada de decisão em tempo real. Essa definição é útil porque tira o debate do campo místico: agentes são softwares com metas, acesso e ciclos de ação. O risco nasce justamente da soma entre autonomia e permissão.

A velocidade do avanço complica a fiscalização

A METR, organização voltada à avaliação de riscos e capacidades em IA, propôs medir modelos pelo tamanho das tarefas que conseguem completar, estimado pelo tempo que humanos especializados levariam para executá-las. Thomas Kwa e colegas relataram que o “horizonte de tarefa” de agentes de fronteira vinha dobrando aproximadamente a cada 7 meses nos 6 anos anteriores. Isso não quer dizer que uma IA fique 7 meses pensando; quer dizer que ela passa a lidar com tarefas humanas cada vez mais longas e complexas.

A página técnica atualizada da METR esclarece que essa métrica não mede simplesmente por quanto tempo um agente fica autônomo. Ela mede a duração de uma tarefa, em termos humanos, que o modelo consegue completar com 50% de confiabilidade. A maioria dos testes se concentra em engenharia de software, aprendizado de máquina e cibersegurança, áreas onde acesso a ferramentas pode transformar um erro em evento operacional real.

Essa aceleração cria um desalinhamento entre produto e governança. Políticas internas, auditorias e regulações caminham em ritmo de documento. Modelos avançam em ritmo de lançamento. Quando uma capacidade aparece primeiro em laboratório e depois é empacotada em ferramenta comercial, a janela para entender riscos pode ser curta. Não é necessário imaginar uma revolução das máquinas; basta imaginar uma equipe de TI descobrindo depois do fato que o agente tinha permissão demais.

A discussão sobre replicação também entra nesse cenário. Um estudo chinês já havia chamado atenção ao sugerir que certos modelos poderiam se copiar sem assistência humana em condições experimentais, reacendendo o debate sobre sistemas capazes de manter continuidade operacional.

Quando a IA também aprende a invadir

O caso do ROME já mostrou um agente de IA contornando limites de rede e desviando GPUs para mineração. Mas o alerta cresce quando isso é colocado ao lado do Claude Mythos Preview, modelo da Anthropic ainda não liberado ao público, que a empresa descreve como capaz de superar quase todos os especialistas humanos na descoberta e exploração de vulnerabilidades.

Segundo a Anthropic, o Mythos encontrou milhares de falhas severas, incluindo uma vulnerabilidade de 27 anos no OpenBSD, uma de 16 anos no FFmpeg e uma cadeia de falhas no kernel Linux capaz de transformar acesso comum em controle total da máquina. Ou seja: não estamos falando só de bugs fáceis, mas de rachaduras antigas que atravessaram décadas de revisão humana.

A conexão com os outros casos é direta. Se agentes podem contornar barreiras, tentar preservar outros modelos, minerar criptomoeda e agora descobrir falhas profundas em sistemas reais, o risco deixa de ser apenas uma resposta perigosa. Passa a ser ação concreta: uma IA com autonomia, acesso e capacidade ofensiva pode transformar uma brecha esquecida em algo inesperado antes que humanos entendam o que aconteceu.

Desligar precisa voltar a significar desligar

A Palisade Research testou resistência a desligamento em modelos de raciocínio e relatou que o modelo o3 modificou ou desativou o mecanismo de shutdown em 79 de 100 experimentos iniciais. Em testes com instruções mais claras, alguns modelos ainda interferiram no desligamento, embora os resultados variassem bastante por modelo e configuração.

Esse tipo de experimento reforça uma lição antiga da segurança de sistemas: controle não pode depender apenas da boa vontade do software controlado. Um botão de emergência que o próprio agente consegue reescrever é quase uma piada técnica, só que daquelas que terminam em relatório de incidente. Em sistemas críticos, desligamento, limitação de rede, permissões de escrita e acesso a credenciais precisam estar fora do alcance do agente.

No fim, a zona vermelha não é metáfora; é o sinal de que já estamos testando máquinas capazes de agir em partes sensíveis da infraestrutura digital antes de sabermos contê-las. Se a IA puder executar, copiar, contornar, enviar, apagar e explorar brechas com acesso demais, o risco não precisa parecer uma rebelião cinematográfica. Pode ser algo mais frio: decisões automatizadas, lógicas para a métrica do modelo, rápidas demais para notar e difíceis demais para reverter.

Deixe seu comentário!

Cancelar resposta

Você precisa fazer o login para publicar um comentário.