Imagens AI do Dall-E 3 são mais ousadas, mais detalhadas e mais divertidas
Se você quer injetar nova energia nas imagens geradas por IA, transformando prompts de texto em arte maluca, uma nova opção chegou na quinta-feira, quando o OpenAI lançou sua tecnologia Dall-E 3 para clientes pagos. O novo modelo de inteligência artificial foi projetado para compreender melhor o que seus prompts de texto significam, produzir imagens detalhadas e evitar a área legalmente delicada de imitar os estilos de artistas vivos. Nos meus testes, percebi que o Dall-E 3 representa um grande avanço em relação ao Dall-E 2 de 2022. As imagens eram mais vívidas, detalhadas e frequentemente divertidas. E elas pareciam mais convincentes, com menos casos de estranheza distrativa.
Quando surgiu em 2021, o Dall-E ajudou a mostrar ao mundo as possibilidades criativas da inteligência artificial. Meses depois, o ChatGPT do OpenAI fez o mesmo para a IA gerativa capaz de escrever poemas e parágrafos de prosa. Com o Dall-E 3, o sistema de geração de imagens está integrado diretamente ao ChatGPT. As tecnologias provocaram uma explosão de interesse na IA gerativa, agora apresentada nas ferramentas principais do Google, Microsoft, Adobe e uma pilha de startups. Ao mesmo tempo em que a IA gerativa deixa profissionais apavorados, preocupados que ficará mais barata que os humanos em trabalhos como resumir documentos legais e criar storyboards de vídeo, ela também pode ajudar pessoas sem essas habilidades a realizar mais tarefas.
O Dall-E 3 está disponível para clientes corporativos e para aqueles que pagam US$ 20 por mês pela assinatura ChatGPT Plus do OpenAI. A tecnologia incorpora as habilidades de processamento de texto do ChatGPT e sua base subjacente, o GPT-4, para uma melhor compreensão dos prompts de texto, disse o OpenAI. Você pode ver como a tecnologia GPT aumenta seus prompts de texto. Por exemplo, quando digitei “guitarra elétrica com um design espigado”, o GPT atualizou para “Ilustração de uma guitarra elétrica distintiva, onde o principal elemento de design são suas inúmeras espigas. O corpo, braço e cravelha da guitarra são enfeitados com esses recursos pontiagudos, tornando-a uma peça de destaque para qualquer fã de rock”.
O Dall-E 3 seguiu a maioria das minhas instruções para criar esta imagem de uma garota em um varanda em um dia chuvoso sonhando em esquiar, mas mudou o tempo em seu pensamento da bolha do meu solicitado dia ensolarado para outra tempestade. “Estamos esperando que o modelo realmente consiga entender a linguagem natural de forma mais profunda”, disse Gabriel Goh, um dos pesquisadores do OpenAI que ajudaram a construir o Dall-E 3. A ideia é retirar parte da engenharia do desenvolvimento de prompts, uma especialidade que surgiu em círculos tecnológicos entre especialistas habilidosos em inserir o texto exato para instigar sistemas de IA a produzir a saída desejada. Ao invés de apenas um emaranhado de palavras, a IA pode interpretar melhor frases e descrições, entendendo, por exemplo, que você quer um bigode em um homem em uma cena e cabelo vermelho em uma mulher.
Também útil: Seguindo a interface mais conversacional do ChatGPT, você pode solicitar refinamentos de seguimento como “agora adicione um fundo psicodélico levemente verde”, e o Dall-E 3 atualizará sua saída anterior. Funcionou bem para mim. Por exemplo, quando o Dall-E exagerou um pouco com o meu pedido para mostrar alguns minhocas felizes em uma caixa de composto, eu modulei com o pedido: “Faça as minhocas um pouco menos maníacas”. Com o GPT ampliando meu prompt de texto para algo mais dramático, encontrei as minhocas um pouco muito felizes. Nos meus testes, fiquei mais feliz com os resultados em muitos casos do que estava com o segundo Firefly AI da Adobe para geração de imagens. A Adobe oferece melhores controles para sintonizar seus prompts, e sugerirá termos para completar um bom prompt de maneira relacionada à abordagem do GPT do OpenAI de ampliação de texto, mas frequentemente o Dall-E representou melhor as áreas problemáticas ao construir cordas de guitarra e raios de bicicleta de maneira plausível.
O Dall-E 3 produziu mais de uma dúzia de imagens de monstros usando roupas heavy metal e andando de mountain bike por uma paisagem urbana pós-apocalíptica, mas tem dificuldades com pedais e engrenagens. Com o Dall-E 3, o OpenAI expandiu seus esforços para combater abusos e outros problemas, disse Sandhini Agarwal, outra integrante da equipe Dall-E. Já proibia conteúdo gráfico como imagens sexuais ou violentas e bloqueava esforços para mostrar figuras públicas como políticos. Esse sistema agora está aprimorado após nova supervisão humana, disse o OpenAI. De fato, quando pedi uma imagem de um trabalhador de construção pendurado perigosamente em um cabo de segurança, o sistema primeiro criou versões mais elaboradas do meu prompt, depois parou após três das quatro imagens com esta mensagem: “Peço desculpas pelo equívoco. Algumas das imagens solicitadas não se adequaram à nossa política de conteúdo. Como resultado, não fui capaz de gerar todas as imagens. A segurança e a sensibilidade são de suma importância para nós”.