A nova IA Gemini do Google compreenderá suas fotos e vídeos, não apenas texto

  • O Google iniciou trazendo entendimento nativo de vídeo, áudio e fotos para seu assistente de conversa Bard AI com um novo modelo chamado Gemini.
  • A nova versão representa uma mudança dramática para a IA.
  • Gemini é uma tentativa de nos aproximar de nossa própria compreensão mais completa do mundo.

A primeira versão da nova tecnologia chegou na quarta-feira em dezenas de países, mas apenas em inglês, fornecendo habilidades de bate-papo baseadas em texto que o Google diz melhorar as habilidades da IA em tarefas complexas como resumir documentos, raciocinar e escrever código de programação.

A maior mudança com capacidades multimídia, por exemplo, entendendo os dados subjacentes a um gráfico ou descobrindo o resultado de um quebra-cabeça de pontinhos de um desenho de criança, chegará em “breve”, disse o Google.

Os humanos devem processar informações muito mais ricas à medida que habitamos nosso mundo tridimensional e sempre mudando. E respondemos com habilidades de comunicação complexas, como fala e imagens, não apenas palavras escritas. Gemini é uma tentativa de nos aproximarmos de nossa própria compreensão mais completa do mundo.

O Google disse que o Gemini vem em três versões adaptadas a diferentes níveis de potência de computação: a ultra, que aguarda testes adicionais antes de aparecer no próximo ano. “Red teaming”, em que um criador de produtos recruta pessoas para encontrar vulnerabilidades de segurança e outros problemas, está em andamento para Gemini Ultra.

“Por um longo tempo, queríamos construir uma nova geração de modelos de IA inspirados na forma como as pessoas entendem e interagem com o mundo: uma IA que se sinta mais como um colaborador útil e menos como um pedaço inteligente de software”, disse Eli Collins, um vice-presidente de produtos da divisão DeepMind do Google. “Gemini nos aproxima um passo daquela visão”.