Google Gemini tenta superar o ChatGPT com IA de foto e vídeo

  • Google começou a trazer uma compreensão nativa de vídeo, áudio e fotos para seu chatbot de IA Bard com um novo modelo chamado Gemini.
  • Proprietários do celular Google Pixel 8 serão os primeiros a aproveitar as novas habilidades de inteligência artificial.
  • O Gemini é uma tentativa de se aproximar da nossa própria compreensão mais completa do mundo.
  • As primeiras encarnações da nova tecnologia chegaram na quarta-feira em dezenas de países por meio da atualização Gemini do Google Bard, mas apenas em inglês. Pode fornecer habilidades de bate-papo baseadas em texto que o Google diz melhorar as habilidades de IA em tarefas complexas como resumir documentos, raciocinar e escrever código de programação. A mudança maior com habilidades multimídia, por exemplo, entendendo gestos de mão em um vídeo ou descobrindo o resultado de um quebra-cabeça de pinção de pontos de um desenho infantil, chegará “em breve”, disse o Google.

    O Gemini é uma mudança dramática para a IA. O bate-papo baseado em texto é importante, mas os humanos devem processar informações muito mais ricas à medida que habitamos nosso mundo tridimensional e em constante mudança. E respondemos com capacidades complexas de comunicação, como a fala e a imagem, não apenas palavras escritas. O Gemini é uma tentativa de nos aproximarmos da nossa própria compreensão mais completa do mundo. O Gemini vem em três versões projetadas para diferentes níveis de potência de computação, disse o Google: O novo modelo ressalta o ritmo frenético do avanço no novo campo da IA generativa, em que os chatbots criam suas próprias respostas aos prompts que escrevemos em linguagem comum em vez de instruções de programação arcaicas.

    O maior concorrente do Google, a OpenAI, obteve uma vantagem com o lançamento do ChatGPT há um ano, mas já o Google está em sua terceira revisão principal de modelo de IA e espera fornecer essa tecnologia por meio de produtos que bilhões de nós usamos, como pesquisa, Chrome, Google Docs e Gmail. “Por um longo tempo, queríamos construir uma nova geração de modelos de IA inspirados na maneira como as pessoas entendem e interagem com o mundo, uma IA que se pareça mais com um colaborador útil e menos com um software inteligente”, disse Eli Collins, vice-presidente de produtos da divisão DeepMind do Google. “O Gemini nos aproxima mais dessa visão”.

    O multimídia provavelmente será uma grande mudança em comparação apenas com o texto quando chegar. Mas o que não mudou são os problemas fundamentais dos modelos de IA treinados reconhecendo padrões em grandes quantidades de dados do mundo real. Eles podem transformar prompts cada vez mais complexos em respostas cada vez mais sofisticadas, mas ainda não se pode confiar que não acabaram de fornecer uma resposta plausível em vez de verdadeiramente correta. Como alerta o chatbot do Google quando você o usa: “O Bard pode exibir informações inexatas, incluindo sobre pessoas, então confira suas respostas”. O Gemini é a próxima geração do grande modelo de linguagem do Google, sucessor do PaLM e PaLM 2 que foram a base do Bard até agora. Mas ao treinar o Gemini simultaneamente em texto, código de programação, imagens, áudio e vídeo, ele consegue lidar mais eficientemente com entrada multimídia do que com modelos de IA separados, mas interligados, para cada modo de entrada.

    Exemplos das habilidades do Gemini, de acordo com um documento de pesquisa do Google (PDF), são diversos. Ao ver uma série de formas consistindo em um triângulo, quadrado e pentágono, ele pode adivinhar corretamente que a próxima forma na série é um hexágono. Apresentado com fotos da lua e de uma mão segurando uma bola de golfe e pedido para encontrar o link, ele aponta corretamente que os astronautas da Apollo bateram duas bolas de golfe na lua em 1971. Converteu quatro gráficos de coluna mostrando técnicas de descarte de resíduos país a país em uma tabela rotulada e detectou um ponto de dados discrepante, nomeadamente que os EUA jogam muito mais plástico no lixo do que outras regiões. A empresa também mostrou o Gemini processando um problema de física escrito à mão envolvendo um esboço simples, percebendo onde um erro do aluno estava e explicando uma correção. Uma demonstração de vídeo mais envolvida mostrou o Gemini reconhecendo um pato azul, fantoches de mão, golpes de mão e outros vídeos. Nenhuma das demonstrações era ao vivo, porém, e não ficou claro com que frequência o Gemini tropeça em tais desafios.

    O Gemini Ultra aguarda mais testes antes de aparecer no próximo ano. “Red teaming”, no qual um fabricante de produtos contrata pessoas para encontrar vulnerabilidades de segurança e outros problemas, está em andamento para o Gemini Ultra. Esses testes são mais complexos com dados de entrada multimídia. Por exemplo, uma mensagem de texto e uma foto cada uma pode ser inocente por si só, mas juntas poderiam transmitir significado drasticamente diferente. “Estamos abordando esse trabalho de forma ousada e responsável”, disse o CEO do Google, Sundar Pichai, em uma postagem no blog. Isso significa uma combinação de pesquisa ambiciosa com potenciais ganhos enormes, mas também adicionando salvaguardas e trabalhando em colaboração com governos e outros “para lidar com riscos à medida que a IA se torna mais capaz”. Observação dos editores: A CNET está usando um motor de IA para ajudar a criar algumas histórias. Para mais detalhes, veja esta postagem.