Inteligência artificial do Google aprendeu a se tornar “altamente agressivo” em situações de estresse

Por , em 14.02.2017

O grande físico Stephen Hawking já nos alertou de que o avanço contínuo da inteligência artificial pode ser “a melhor ou a pior coisa” a acontecer com a humanidade. Para saber qual é essa pior coisa, comece assistindo O Exterminador do Futuro.

E não pense que esse é só um filme maluco muito longe da realidade.

Em testes no final do ano passado, o sistema DeepMind, a inteligência artificial (IA) do Google, demonstrou a capacidade de aprender independentemente a bater os melhores jogadores do mundo em Go, um jogo que envolve grande capacidade estratégica.

Agora, os pesquisadores têm testado sua disposição para a cooperação – e o que eles descobriram é no mínimo preocupante. Quando um agente DeepMind sente que está prestes a perder, opta por estratégias “altamente agressivas” para garantir que saia por cima.

Gathering

A equipe do Google executou 40 milhões de rodadas de um jogo de computador simples de coleta de frutas, chamado Gathering, que pedia a dois agentes DeepMind para competir um contra o outro para reunir quantas maçãs virtuais pudessem.

Os cientistas descobriram que as coisas corriam bem contanto que houvesse maçãs suficientes para ambos. Assim que as maçãs começavam a diminuir em quantidade, os dois agentes se tornavam agressivos, usando raios laser para expulsar o oponente do jogo e roubar todas as maçãs.

Você pode assistir a uma simulação do Gathering abaixo, com os agentes DeepMind em azul e vermelho, as maçãs virtuais em verde e os raios laser em amarelo:

Quanto mais complexo, mais agressivo

Curiosamente, se um agente acertava seu adversário com sucesso usando um raio laser, nenhuma recompensa era dada. Ele simplesmente conseguia tirar o oponente do jogo por um período definido, o que permitia que coletasse mais maçãs.

Se os agentes não usassem os raios laser, poderiam teoricamente acabar com quantidades iguais de maçãs, que é o que as versões “menos inteligentes” de DeepMind optaram por fazer.

Já quando a equipe do Google testou formas mais complexas da IA, sabotagem, ganância e agressão entraram em jogo. Redes menores de DeepMind tinham uma maior probabilidade de coexistência pacífica.

Ambiente e aprendizado

Os pesquisadores sugerem que, quanto mais inteligente é o agente, mais capaz ele é de aprender com seu ambiente, permitindo que use algumas táticas altamente agressivas para alcançar o topo de sua performance.

“Este modelo mostra que alguns aspectos do comportamento humano emergem como um produto do ambiente e do aprendizado”, disse um dos membros da equipe, Joel Z Leibo, ao portal Wired. “As políticas menos agressivas emergem do aprendizado em ambientes relativamente abundantes, com menos possibilidade de ações dispendiosas. A motivação da ganância reflete a tentação de tirar um rival e recolher todas as maçãs”.

Wolfpack

Os agentes DeepMind também foram testados em outro jogo, chamado Wolfpack. Desta vez, três IAs participaram das rodadas, duas como lobos e uma como presa.

Ao contrário de Gathering, este jogo ativamente incentivava a cooperação, porque se ambos os lobos estivessem perto da presa quando esta era capturada, ambos recebiam uma recompensa – não importa qual deles finalmente a agarrasse.

A ideia é que a presa é perigosa – um lobo solitário pode superá-la, mas corre o risco de perder a carcaça para outros animais. Se dois lobos capturam a presa em conjunto, eles podem proteger melhor a carcaça e receber uma maior recompensa.

Assim como os agentes DeepMind aprenderam em Gathering que a agressividade e o egoísmo lhes renderam o resultado mais favorável nesse ambiente em particular, eles aprenderam em Wolfpack que a cooperação levava a um maior sucesso individual neste caso. No vídeo abaixo, lobos (vermelhos) perseguem presa (azul) enquanto evitam obstáculos (cinzas):

Ensinando os sistemas de IA a ser bonzinhos

Sim, estes são “apenas” jogos de computador. A mensagem, entretanto, é clara: se sistemas de IA diferentes se tornarem responsáveis por situações da vida real, seus objetivos “particulares” (o motivo pelo qual foram criados) precisam ser equilibrados com o objetivo geral de beneficiar os seres humanos acima de tudo.

A equipe do Google ainda precisa publicar um artigo revisado por pares sobre os resultados destes testes, mas os dados iniciais mostram que, só porque os construímos, isso não significa que robôs e sistemas de IA terão automaticamente nossos melhores interesses como guias.

Em vez disso, precisamos incutir essa natureza útil nas nossas máquinas, e antecipar qualquer “lacuna” que poderia permitir que elas cheguem aos raios laser. [ScienceAlert]

3 comentários

  • Alex Pedruzzi:

    Ñ estava lá, muito menos ajudei a desenvolver. Ñ acredito!
    E outra coisa: nos 2 vídeos, a presa (azul) é muito burra! Qualquer LV1 ganha!

    • Cesar Grossmann:

      Meus parabéns, você é sério candidato para substituir os “caçadores”.

  • Johny Ted:

    Assustador. O pior é que o laser é usado para o adversário não vencer e não para ele vencer. Até robôs roubam. Este mundo está perdido.

Deixe seu comentário!