OpenAI agora pode transformar palavras em vídeos ultra-realistas

  • A startup de IA OpenAI lançou um modelo de texto para vídeo, chamado Sora, que poderia elevar os padrões do que é possível na IA gerativa.
  • Assim como a ferramenta de texto para vídeo do Google chamada Lumiere, a disponibilidade do Sora é limitada.
  • Diferente do Lumiere, o Sora pode gerar vídeos de até 1 minuto de duração.
  • A geração de texto para vídeo se tornou a mais recente corrida armamentista na IA gerativa à medida que a OpenAI, Google, Microsoft e outras buscam ir além da geração de texto e imagem e se firmar em um setor projetado para atingir US$ 1,3 trilhão em receita até 2032 – e conquistar os consumidores que têm se interessado pela IA gerativa desde a chegada do ChatGPT há pouco mais de um ano.

    De acordo com uma publicação da OpenAI, criadora do ChatGPT e do Dall-E, o Sora estará disponível para “red teamers”, ou especialistas em áreas como desinformação, conteúdo de ódio e viés, que farão “testes adversários no modelo”, assim como artistas visuais, designers e cineastas para obter feedback adicional de profissionais criativos. Esse teste adversário será especialmente importante para lidar com o potencial para deepfakes convincentes, uma grande preocupação para o uso da IA na criação de imagens e vídeos. Além de obter feedback de fora da organização, a startup de IA disse que quer compartilhar seu progresso agora para “dar ao público uma ideia do que as capacidades de IA estão no horizonte”.

    Uma coisa que pode diferenciar o Sora é sua capacidade de interpretar prompts longos – incluindo um exemplo de 135 palavras. A amostra de vídeo compartilhada pela OpenAI na quinta-feira demonstrou que o Sora pode criar uma variedade de personagens e cenas, de pessoas e animais e monstros fofos a paisagens urbanas, paisagens e até a cidade de Nova York submersa na água. Isso se deve em parte ao trabalho anterior da OpenAI com seus modelos Dall-E e GPT. O gerador de imagem a partir de texto Dall-E 3 foi lançado em setembro. Stephen Shankland, da CNET, chamou-o de “um grande avanço em relação ao Dall-E 2 de 2022”. (O mais recente modelo de IA da OpenAI, o GPT-4 Turbo, chegou em novembro.) Em particular, o Sora empresta a técnica de recapturação do Dall-E 3, que a OpenAI diz gerar “legendas altamente descritivas para os dados de treinamento visuais”. “O Sora consegue gerar cenas complexas com múltiplos personagens, tipos específicos de movimento e detalhes precisos do assunto e do plano de fundo”, diz a publicação. “O modelo compreende não apenas o que o usuário pediu no prompt, mas também como essas coisas existem no mundo físico”.

    As amostras de vídeo compartilhadas pela OpenAI realmente parecem impressionantemente realistas – talvez quando um rosto humano aparece muito de perto ou quando criaturas marinhas estão nadando. De outra forma, você poderia ter dificuldade em dizer o que é real e o que não é. O modelo também pode gerar vídeo a partir de imagens estáticas e estender vídeos existentes ou preencher quadros ausentes, muito como o Lumiere pode fazer. “O Sora serve como fundação para modelos que podem entender e simular o mundo real, uma capacidade que acreditamos ser um marco importante para a obtenção de IA geral”, acrescentou a publicação. AIA, ou inteligência artificial geral, é uma forma mais avançada de IA mais próxima da inteligência humana e inclui a capacidade de executar uma gama mais ampla de tarefas. A Meta e a DeepMind também expressaram interesse em atingir este marco. A OpenAI admitiu que o Sora tem fraquezas, como ter dificuldade em retratar com precisão a física de uma cena complexa e entender causa e efeito. “Por exemplo, uma pessoa pode dar uma mordida em um biscoito, mas depois, o biscoito pode não ter uma marca de mordida”, disse a publicação. E qualquer um que ainda precise fazer um L com as mãos para descobrir qual é a esquerda pode ficar tranquilo: o Sora também confunde a esquerda com a direita. A OpenAI não compartilhou quando o Sora estará amplamente disponível, mas notou que deseja dar “vários passos importantes de segurança” primeiro. Isso inclui atender aos padrões de segurança existentes da OpenAI, que proíbem violência extrema, conteúdo sexual, imagens de ódio, semelhança de celebridades e propriedade intelectual de terceiros. “Apesar de extensa pesquisa e testes, não podemos prever todas as maneiras benéficas pelas quais as pessoas usarão nossa tecnologia, nem todas as formas pelas quais as pessoas a abusarão”, acrescentou a publicação. “É por isso que acreditamos que o aprendizado resultante do uso do mundo real é um componente crucial para a criação e liberação de sistemas de IA cada vez mais seguros ao longo do tempo”.