Google acabou de lançar Gemini, sua resposta há muito esperada para o ChatGPT

Por , em 7.12.2023

O Gemini, a mais recente inovação de inteligência artificial do Google, que processa texto, imagens e vídeos, pode representar um avanço tão significativo quanto o PageRank foi em seu tempo. O PageRank catapultou o Google para a liderança do mercado de motores de busca.

Este novo modelo de IA, Gemini, começou a ser integrado hoje no chatbot Bard do Google, voltado para usuários que utilizam o inglês. Essa implementação será estendida para mais de 170 países e territórios. A partir de 13 de dezembro, os desenvolvedores poderão acessar o Gemini por meio da API do Google Cloud. Paralelamente, uma versão mais enxuta do Gemini começará a otimizar as respostas sugeridas no teclado dos smartphones Pixel 8. Google planeja também incorporar o Gemini em outros produtos como pesquisa gerativa, publicidade e no navegador Chrome nos próximos meses. A versão mais avançada do Gemini está prevista para 2024, sujeita a rigorosos testes de confiança e segurança.

Em uma entrevista à revista WIRED, Demis Hassabis, CEO da Google DeepMind, manifestou grande entusiasmo com o desempenho e as possíveis aplicações do Gemini.

O Gemini é descrito pelo Google como um modelo “intrinsecamente multimodal”, treinado não apenas em textos, mas também em imagens, vídeos e áudio. Eli Collins, Vice-Presidente de Produto da Google DeepMind, destacou o caráter abrangente e versátil do Gemini durante um briefing à imprensa.

Existem três versões do Gemini: Ultra, a maior e mais completa; Nano, mais compacta e eficiente; e Pro, de tamanho médio e capacidades moderadas.

A partir de hoje, o chatbot Bard do Google utilizará o Gemini Pro, ampliando sua capacidade de raciocínio complexo e planejamento. Uma versão especializada do Gemini Pro também está sendo integrada em uma nova versão do AlphaCode, uma ferramenta de codificação generativa do Google DeepMind. Em 2024, a versão mais avançada, Gemini Ultra, será incorporada ao Bard e disponibilizada através de uma API na nuvem.

Sissie Hsiao, Vice-Presidente do Google, ressaltou as habilidades multimodais do Gemini, melhorando a eficiência do Bard em tarefas como resumo de conteúdo, brainstorming, escrita e planejamento.

Demonstrações do Google evidenciaram a capacidade do Gemini de lidar com desafios envolvendo informações visuais, como a interpretação de vídeos, solução de quebra-cabeças e geração de ideias para jogos usando um mapa do mundo. A capacidade do Gemini de auxiliar na pesquisa científica, analisando artigos com gráficos e equações, também foi destacada.

Collins apontou que o Gemini Pro supera o GPT-3.5, modelo anterior do ChatGPT, em diversos benchmarks de inteligência de software de IA.

O Google afirma que o Gemini Ultra, que será lançado no próximo ano, supera todos os outros modelos, incluindo o GPT-4, no benchmark de Compreensão de Linguagem Multitarefa Massiva (MMLU).

Oren Etzioni, professor emérito da Universidade de Washington, comentou sobre a intensa competição no desenvolvimento de IA, sugerindo que a próxima iteração, GPT-5, pode superar o desempenho do Gemini.

O processo extenso e caro de treinar grandes modelos de IA indica que o desenvolvimento do Gemini provavelmente envolveu um investimento significativo, com o Google possivelmente desenvolvendo uma arquitetura única para o modelo e um novo conjunto de dados de treinamento. Isso faz parte da estratégia do Google para ofuscar o ChatGPT da OpenAI e reafirmar sua liderança em IA.

Apesar das preocupações anteriores com o lançamento de tecnologia de chatbot devido aos riscos potenciais, o Google realizou testes de segurança abrangentes no Gemini, dada a sua maior capacidade. Isso inclui testes com um conjunto de dados de prompts tóxicos desenvolvidos pelo Allen Institute for AI e colaboração com pesquisadores externos para testes adicionais.

O lançamento do Gemini é crucial para o Google e sua empresa-mãe, a Alphabet, pois eles se esforçam para manter sua liderança em IA em meio à crescente concorrência da OpenAI e da Microsoft.

O projeto Gemini, anunciado em maio na conferência I/O do Google, é uma resposta à crescente popularidade do ChatGPT e à potencial ameaça da tecnologia da OpenAI em potencializar o motor de busca Bing da Microsoft. Apesar da posição dominante do Google no mercado global de buscas, a introdução do Gemini reflete os esforços intensificados da empresa para competir com o ChatGPT.

O projeto Gemini representa a colaboração do grupo principal de pesquisa em IA do Google, o Google Brain, com sua unidade de IA baseada em Londres, o DeepMind. Ele utilizou chips de silício personalizados do Google, chamados Unidades de Processamento Tensor (TPUs), para treinar modelos de IA. O nome Gemini simboliza a fusão dos dois principais laboratórios de IA do Google e faz alusão ao Projeto Gemini da NASA.

Alexei Efros, professor da UC Berkeley, reconheceu o potencial da abordagem do Gemini, ao mesmo tempo em que observou as limitações inerentes de tais modelos de IA em compreender as complexidades do mundo real.

O artigo foi atualizado em 6 de dezembro de 2023, para corrigir um erro de ortografia no nome de Sissie Hsiao. [Wired]

Deixe seu comentário!