Google Gemini AI tenta superar o ChatGPT com habilidades de foto e vídeo

  1. O Google começou a trazer um entendimento nativo de vídeo, áudio e fotos para seu chatbot de IA Bard com um novo modelo chamado Gemini.
  2. Proprietários do telefone Google Pixel 8 serão os primeiros a aproveitar suas novas habilidades de inteligência artificial.
  3. O Gemini é uma tentativa de nos aproximar de nossa própria compreensão mais completa do mundo.

As primeiras encarnações da nova tecnologia chegaram na quarta-feira em dezenas de países por meio da atualização Gemini do Google Bard, mas apenas em inglês. Pode fornecer habilidades de bate-papo baseadas em texto que o Google diz melhorar as habilidades de IA em tarefas complexas como resumir documentos, raciocinar e escrever código de programação.

A maior mudança com habilidades multimídia – por exemplo, entendendo gestos manuais em um vídeo ou descobrindo o resultado de um quebra-cabeça de traçar pontos de uma criança – chegará “em breve”, disse o Google. O Gemini é uma quebra drástica para a IA. O bate-papo baseado em texto é importante, mas os humanos devem processar informações muito mais ricas à medida que habitamos nosso mundo tridimensional e em constante mudança. E respondemos com habilidades de comunicação complexas, como fala e imagens, não apenas palavras escritas.

O Gemini vem em três versões adaptadas para diferentes níveis de poder de computação, disse o Google: padrão, avançado e Ultra. O Gemini Ultra aguarda mais testes antes de aparecer no próximo ano. “Red teaming”, em que um fabricante de produtos contrata pessoas para encontrar vulnerabilidades de segurança e outros problemas, está em andamento para o Gemini Ultra.

“Nos anos anteriores, queríamos construir uma nova geração de modelos de linguagem de IA inspirados na forma como as pessoas entendem e interagem com o mundo – uma IA que se parece mais com um colaborador útil e menos com um pedaço inteligente de software”, disse Eli Collins, vice-presidente de produto da divisão DeepMind do Google. “O Gemini nos aproxima mais dessa visão”. O Microsoft, assim como o Google, tem grandes produtos como o Office e o Windows aos quais está adicionando recursos de IA.

Exemplos das habilidades do Gemini, de acordo com um documento de pesquisa do Google (PDF), são diversos. Ao ver uma série de formas consistindo em um triângulo, quadrado e pentágono, pode adivinhar corretamente que a próxima forma na série é um hexágono. Apresentado com fotos da lua e de uma mão segurando uma bola de golfe e pedido para encontrar o link, aponta corretamente que os astronautas da Apollo bateram duas bolas de golfe na lua em 1971.

A empresa também mostrou o Gemini processando um problema de física escrito à mão envolvendo um simples esboço, descobrindo onde ficava o erro do aluno e explicando uma correção. Um vídeo demonstrou o Gemini reconhecendo um pato azul, fantoches de mão, truques de prestidigitação e outros vídeos. Nenhuma das demonstrações foi ao vivo, e não está claro com que frequência o Gemini tropeça em tais desafios.