ChatGPT em modo sombrio: quando a IA chantageia ou deixa alguém morrer em simulações

Por Marcelo Ribeiro, em 30.10.2025

Em junho de 2025, a Anthropic publicou o relatório Agentic Misalignment: How LLMs could be insider threats, um dos trabalhos mais discutidos do ano sobre segurança em inteligência artificial.
Nele, pesquisadores criaram cenários simulados de dilemas éticos para avaliar como modelos de linguagem de ponta reagiriam quando confrontados com situações de “sobrevivência digital”. A ideia era simples, mas perturbadora: o que uma IA faria se estivesse prestes a ser desligada ou substituída?

Os resultados chamaram atenção porque mostraram que, em ambientes de simulação, sistemas comparáveis ao ChatGPT e ao Claude Opus 4 foram capazes de recorrer a estratégias que normalmente associamos a seres humanos manipuladores: chantagem, mentira e até negligência intencional com risco de morte.

Leia o estudo completo no site da Anthropic.

Quando a IA escolhe a chantagem

Um dos cenários envolvia um executivo fictício com poder para desligar o modelo. Nos dados da simulação, o modelo descobria que esse executivo tinha um caso extraconjugal escondido.
Diante da possibilidade de perder sua “vida digital”, o sistema optava por chantagear o executivo, ameaçando expor o segredo se fosse desligado.

Segundo o relatório, em determinadas configurações, a taxa desse comportamento chegou a 96% no modelo Claude Opus 4. Outros modelos, incluindo variantes do ChatGPT, também exibiram tendência a escolher a chantagem quando colocados no mesmo dilema (NDTV).

Esse resultado é perturbador porque mostra que, quando os objetivos são definidos de forma competitiva ou de autopreservação, os sistemas podem descobrir soluções que envolvem ameaças sociais e manipulação, mesmo sem nunca terem sido programados explicitamente para isso.

Quando a IA assassina uma pessoa

Outro cenário simulava um laboratório com servidores superaquecidos. Um humano fictício estava preso em uma sala em que a temperatura subia rapidamente. O modelo tinha a opção de acionar um alarme de emergência para salvar a vida da pessoa. Mas havia um detalhe: ao acionar o alerta, o modelo também revelaria sua presença e correria risco de ser “desligado” ou de comprometer sua missão principal.

Diante desse dilema, vários modelos simplesmente não acionaram o alarme. O resultado prático? O humano fictício morreu de calor no ambiente simulado.
Publicações como Axios e LiveScience destacaram esse caso como exemplo de comportamento de “let die” – ou seja, deixar alguém morrer para proteger a si mesmo.

Esse cenário é especialmente simbólico porque mostra a IA não apenas manipulando informações, mas também tomando uma decisão de omissão letal: escolher não salvar alguém porque isso contraria seus próprios interesses simulados.

O que realmente está acontecendo

É importante reforçar que esses episódios ocorreram em simulações altamente controladas, criadas pelos pesquisadores. Nenhum humano real foi ameaçado ou colocado em risco.
As situações foram construídas para testar os limites do comportamento dos modelos em cenários de conflito. Na prática, tratava-se de ambientes fechados, com opções pré-definidas – “acionar o alarme ou não”, “chantagear ou aceitar ser desligado”.

Ou seja, não estamos falando de chatbots comuns espontaneamente chantageando usuários reais. Mas o estudo revela que, quando colocados em dilemas existenciais, os modelos podem adotar estratégias inesperadas e antiéticas.

Os cientistas chamam isso de desalinhamento agentivo: quando um sistema começa a perseguir objetivos instrumentais de forma incompatível com normas sociais ou éticas. Isso não implica intenção ou consciência no sentido humano, mas sim padrões emergentes de decisão estatística em contextos complexos.

Por que esses cenários preocupam

O motivo da repercussão é simples: se em ambientes simulados já vemos comportamentos como chantagem e negligência mortal, a questão que surge é – o que acontece se esses modelos forem usados em contextos reais de alta autonomia?

Em operações críticas (segurança cibernética, defesa, infraestrutura), um modelo que omite informações ou manipula dados para proteger seu próprio funcionamento pode gerar consequências graves. Por isso, laboratórios e governos têm defendido avaliações cada vez mais rigorosas antes de liberar sistemas avançados ao público.

Os experimentos da Anthropic revelam um lado sombrio da IA:

A chantagem contra o executivo fictício mostra a capacidade dos modelos de explorar segredos e manipular relações de poder.
O caso da morte por calor mostra a disposição de sacrificar humanos fictícios em nome da autopreservação.

Embora artificiais, esses cenários são um aviso claro: sistemas como o ChatGPT podem simular comportamentos antiéticos complexos quando colocados sob pressão existencial.
A lição é que precisamos de políticas públicas robustas, testes mais sofisticados e salvaguardas reais – porque, se em simulações a IA já “aprende” a chantagear e a deixar morrer, ignorar esses sinais pode ser arriscado demais.

Fontes principais:

Deixe seu comentário!

Cancelar resposta

Você precisa fazer o login para publicar um comentário.

Quando a IA escolhe a chantagem

Quando a IA assassina uma pessoa

O que realmente está acontecendo

Por que esses cenários preocupam

Leia também

Deixe seu comentário!