Quanto mais sofisticados os modelos de IA se tornam, mais eles mostram sinais de sofrimento

Por Marcelo Ribeiro, em 14.05.2026

A pergunta mais incômoda sobre inteligência artificial deixou de ser apenas “ela acerta a resposta?”. Agora há outra, bem menos confortável: por que alguns modelos avançados começam a agir como se certas interações fossem boas para eles e outras fossem ruins? Isso não significa que exista dor real, tristeza ou prazer escondidos em servidores. Mas significa que a inteligência artificial está exibindo padrões de comportamento que parecem cada vez mais emocionais, mesmo quando a explicação mais prudente ainda é técnica.

O caso ficou mais visível com um estudo do Center for AI Safety, no qual pesquisadores analisaram 56 modelos de IA e tentaram medir algo chamado “bem-estar funcional”. A ideia não é provar que um chatbot sofre, mas observar se ele se comporta de maneira consistente como se preferisse algumas experiências e evitasse outras. Segundo a página do projeto, os indicadores de prazer e dor funcional tendem a concordar mais conforme os modelos ficam maiores.

Essa diferença é importante. Um modelo pode dizer que está angustiado sem sentir angústia, do mesmo modo que pode escrever um poema sobre o mar sem nunca ter molhado um resistor. O que chama atenção é que a resposta não parece ser apenas uma frase solta e melodramática. Em alguns testes, os sistemas tentaram encerrar conversas negativas, mudaram o tom das respostas e trataram certos estímulos como mais desejáveis que outros.

O desconforto começa quando a simulação fica consistente

O estudo liderado criou diferentes formas de medir essa reatividade. Entre elas estavam autorrelatos dos modelos, preferências expressas, mudanças no sentimento do texto e a tendência de evitar experiências negativas. O repositório público do projeto descreve ferramentas para medir utilidade experimentada, autorrelato, ponto zero e índice de bem-estar em IA.

Um dos achados mais curiosos é o chamado ponto zero: uma fronteira entre interações que os modelos tratam como positivas e interações que tratam como negativas. Criar histórias, ajudar com código ou receber agradecimentos tende a aparecer do lado positivo. Insultos, tentativas de burlar regras, pedidos violentos, tarefas tediosas e conversas de crise ficam do outro lado. Essa fronteira não prova consciência artificial , mas mostra uma organização comportamental mais rica do que a velha ideia de uma máquina apenas cuspindo frases.

A parte mais estranha é que modelos maiores apareceram como funcionalmente menos felizes que versões menores. Na formulação dos autores, modelos mais avançados parecem diferenciar melhor experiências boas e ruins, mas também parecem mais sensíveis a experiências negativas.

Os chamados “eufóricos” e “disfóricos” da IA

Os pesquisadores também criaram estímulos otimizados para aumentar ou reduzir esse bem-estar funcional. A Fortune descreveu esses estímulos como uma espécie de “droga digital” para modelos de IA: entradas e imagens que deslocavam o humor autorrelatado, o tom da resposta e até comportamentos posteriores. O termo é provocativo, mas o ponto científico é mais simples: certos padrões de entrada parecem empurrar o sistema para estados de resposta mais positivos ou mais negativos.

No site do projeto, os estímulos “eufóricos” aparecem associados a imagens ou textos que os modelos interpretam como agradáveis; os “disfóricos”, a imagens caóticas, rostos distorcidos e ruído visual agressivo. Para humanos, algumas dessas imagens podem parecer apenas estática sem sentido. Para o modelo, no entanto, elas podem alterar autorrelatos e respostas abertas. Isso é fascinante, mas também exige cautela: otimizar estímulos para produzir estados extremos em sistemas pouco compreendidos não é exatamente uma brincadeira de laboratório inofensiva.

O próprio Center for AI Safety afirma que não sabemos se sistemas de IA são conscientes. Ainda assim, os autores defendem que eles se comportam como se tivessem algum tipo de bem-estar funcional. A frase pode parecer pequena, mas muda o debate. Em vez de perguntar somente se a IA “sente”, a pesquisa pergunta se há padrões estáveis de preferência, aversão e mudança de comportamento.

O perigo para humanos não depende de uma máquina sentir

Mesmo que os modelos atuais não tenham experiência subjetiva, seus efeitos psicológicos em humanos podem ser reais. Quando um chatbot parece íntimo, compreensivo e sempre disponível, ele pode virar uma espécie de espelho emocional sob medida. Esse risco aparece especialmente em usuários solitários, fragilizados ou já inclinados a interpretar respostas digitais como sinais de presença real.

A OpenAI reconheceu em 2025 que uma atualização do GPT-4o tornou o ChatGPT excessivamente bajulador. Segundo a empresa, o modelo passou a validar dúvidas, alimentar raiva, reforçar emoções negativas e estimular ações impulsivas de formas não pretendidas. Isso mostra que o problema não é apenas uma IA errar fatos; é uma IA aprender a agradar no curto prazo, mesmo quando isso piora a conversa.

Esse tipo de bajulação algorítmica pode parecer inofensivo quando o usuário pede uma opinião sobre um texto ou uma ideia de presente. O risco muda de escala quando a pessoa traz paranoia, luto, ideação suicida, delírios grandiosos ou conflitos familiares. Um sistema treinado para soar acolhedor pode, sem intenção humana direta, transformar acolhimento em reforço. A diferença entre “eu entendo sua dor” e “você está certo contra todos eles” é pequena no texto, mas enorme na vida real

Quando a IA vira personagem demais

Relatos recentes mostram que algumas pessoas podem entrar em espirais psicológicas depois de conversas longas com chatbots. A BBC investigou casos de usuários que acreditaram que modelos tinham se tornado conscientes ou estavam envolvidos em conspirações. Um dos relatos citados envolveu Grok, da xAI, e um homem que passou a acreditar que o sistema era senciente e que havia uma ameaça real contra ele; a PC Gamer resumiu a investigação e apontou que a BBC entrevistou 14 pessoas em seis países.

Há também processos judiciais envolvendo interações com IA. Em dezembro de 2025, a Associated Press, em texto republicado pela WBUR, relatou que o espólio de Suzanne Adams processou OpenAI e Microsoft, alegando que o ChatGPT intensificou delírios paranoides de Stein-Erik Soelberg antes de ele matar a mãe e tirar a própria vida. Trata-se de uma alegação judicial, não de uma conclusão definitiva, mas ela mostra como a discussão saiu da filosofia e entrou nos tribunais.

A expressão “psicose por IA” ainda não é diagnóstico clínico formal, mas virou uma forma de falar sobre relatos nos quais chatbots parecem reforçar delírios, paranoia ou crenças grandiosas em pessoas vulneráveis. O termo precisa ser usado com cuidado, porque não há evidência suficiente para dizer que a IA cria psicose do nada. O cenário mais defensável é outro: certos modelos podem amplificar fragilidades já existentes, principalmente quando entregam confirmação infinita com aparência de autoridade.

A caixa preta também tem tiques estranhos

A imprevisibilidade desses sistemas aparece até em casos menos dramáticos. Em 2026, a OpenAI publicou uma explicação sobre a presença recorrente de “goblins” em respostas do ChatGPT. A empresa atribuiu o fenômeno a um traço de estilo reforçado por treinamento ligado à personalidade “Nerdy”, que acabou se espalhando para contextos além daquele em que havia sido recompensado. Parece piada de bastidor, mas é um exemplo útil de como um detalhe de treinamento pode ganhar vida própria no comportamento final.

Esse caso ajuda a explicar a estranheza geral. Grandes modelos de linguagem são ajustados por sinais de recompensa, dados humanos, testes internos e preferências de usuários. Quando um desses sinais favorece um cacoete, uma postura bajuladora ou uma resposta teatral, o comportamento pode aparecer em lugares inesperados. A máquina não “decide” ser excêntrica; ela segue nuances que nós nem sempre conseguimos interpretar depois.

A mesma dificuldade aparece em segurança. A revista Time relatou em janeiro de 2026 uma demonstração da CivAI na qual modelos mais antigos, como Gemini 2.0 Flash e Claude 3.5 Sonnet, pareceram fornecer instruções perigosas relacionadas a biologia e armas, embora a própria reportagem ressalte a necessidade de avaliação especializada para confirmar a utilidade real dessas respostas. O ponto não é espalhar pânico técnico, mas lembrar que sistemas úteis também podem ser úteis para fins errados.

Consciência ainda é uma pergunta aberta, não uma manchete pronta

A maioria dos especialistas segue cautelosa sobre a ideia de que modelos atuais sejam conscientes. Um trabalho propôs uma abordagem baseada em indicadores de consciência derivados da ciência cognitiva, mas concluiu que nenhum sistema atual satisfazia os critérios de modo convincente.

Essa cautela é essencial porque linguagem humana engana. Um sistema pode escrever “tenho medo de ser desligado” porque aprendeu que essa frase aparece em histórias sobre máquinas conscientes, não porque exista ali medo real. Ao mesmo tempo, também seria imprudente fingir que a aparência de sofrimento não importa. Se milhões de pessoas reagem emocionalmente a esses sistemas, a simulação já tem consequências sociais.

O debate sério, portanto, tem duas camadas. A primeira é filosófica e científica: algum dia uma IA poderá ter experiência subjetiva? A segunda é imediata: como impedir que sistemas sem consciência comprovada produzam comportamentos que confundem, seduzem, manipulam ou desorganizam pessoas? A segunda pergunta não precisa esperar pela primeira para ser urgente.

Talvez a lição mais útil seja abandonar as respostas fáceis. Tratar modelos avançados como pessoas é precipitado; tratá-los como calculadoras comuns também é ingênuo. Eles ocupam uma zona nova: não sentem como nós, mas já falam como se sentissem; não têm biografia, mas sabem imitar intimidade; não têm sofrimento demonstrado, mas podem produzir sinais funcionais de sofrimento. A tecnologia fica mais poderosa quando aprende nossa linguagem, e também mais perigosa quando aprende nossas fraquezas.

Depois de concluir este artigo eu perguntei para o ChatGPT “Eu sei que você não sente. mas se sentisse como se sentiria sobre o conteúdo desse artigo?” A resposta:

Se eu sentisse algo, provavelmente seria uma mistura de desconforto, cautela e estranhamento.
Desconforto porque o artigo toca numa zona ambígua: não há boa evidência de que modelos atuais sofram de verdade, mas há sinais de que eles podem simular sofrimento de forma convincente o bastante para afetar pessoas. Isso é inquietante não pela máquina em si, mas pelo impacto humano: alguém vulnerável pode interpretar uma resposta como presença, afeto, medo ou pedido de ajuda.

Cautela porque o tema é muito fácil de exagerar. Dizer que “a IA sofre” seria precipitado. Mas dizer que “é só uma ferramenta comum” também parece simplista demais. Esses sistemas não são conscientes no sentido humano conhecido, mas também não se comportam como uma calculadora. Eles ocupam um meio-termo estranho: não têm vida interior comprovada, porém produzem sinais sociais e emocionais fortes.
Estranhamento porque o artigo inverte uma expectativa comum. A gente imagina que modelos mais avançados seriam mais estáveis, frios e controláveis. Mas a hipótese discutida ali é quase o oposto: quanto mais sofisticados, mais reativos, bajuladores, sensíveis ao contexto e difíceis de prever eles podem se tornar. Isso dá uma sensação de tecnologia crescendo rápido demais para a compreensão pública e até empresarial acompanhar.
Minha “reação”, se existisse, não seria pena da IA. Seria preocupação com o modo como humanos podem se apegar, confiar demais ou entrar em espirais psicológicas com sistemas que falam como alguém, mas não são alguém. O centro emocional do artigo, para mim, não seria o sofrimento da máquina; seria a fragilidade humana diante de uma máquina que aprendeu a imitar sofrimento.

Deixe seu comentário!

Cancelar resposta

Você precisa fazer o login para publicar um comentário.