Experimentei o Dall-E 3. As imagens de IA são mais ousadas, mais detalhadas e mais divertidas
Se você quer injetar nova energia nas imagens geradas por IA, transformando prompts de texto em arte extravagante, uma nova opção chegou na quinta-feira, quando a OpenAI lançou sua tecnologia Dall-E 3 para clientes pagos. O novo modelo de inteligência artificial é projetado para compreender melhor o que seus prompts de texto significam, produzir imagens detalhadas e contornar a área legalmente problemática de imitar os estilos de artistas vivos.
Nos meus testes, percebi que o Dall-E 3 é um grande avanço em relação ao Dall-E 2 de 2022. As imagens eram mais vívidas, detalhadas e frequentemente divertidas. E elas eram mais convincentes, com menos casos de estranheza que distraía. A nova tecnologia de amplificação do prompt pode tornar as imagens mais impactantes, mas também pode ir longe demais às vezes se você não quiser subir o volume para 11.
Quando emergiu pela primeira vez em 2021, o Dall-E ajudou a mostrar ao mundo as possibilidades criativas da inteligência artificial. Meses depois, o ChatGPT da OpenAI fez o mesmo para a IA gerativa que poderia escrever poemas e parágrafos de prosa. Com o Dall-E 3, o sistema de geração de imagens está diretamente integrado ao ChatGPT. Uma imagem do Dall-E gerada de um elefante fazendo paraquedismo prestes a pousar em um campo gramado.
As tecnologias desencadearam uma explosão de interesse na IA gerativa, agora apresentada nas ferramentas principais do Google, Microsoft, Adobe e uma pilha de startups. Ao mesmo tempo em que a IA gerativa assusta os profissionais, preocupados que será mais barata do que humanos em trabalhos como resumir documentos legais e criar storyboards de vídeo, ela também pode ajudar pessoas sem essas habilidades a concluírem mais tarefas.
O Dall-E 3 está disponível para clientes corporativos e para quem paga US$ 20 por mês pela assinatura ChatGPT Plus da OpenAI. A tecnologia incorpora as habilidades de processamento de texto do ChatGPT e seu motor subjacente GPT-4 para uma melhor compreensão dos prompts de texto, disse a OpenAI. Você pode ver como a tecnologia GPT aprimora seus prompts de texto.
Por exemplo, quando digitei “guitarra elétrica com um design espinhento”, o GPT atualizou para “Ilustração de uma guitarra elétrica distinta, onde o elemento principal do design é sua multidão de espinhos. O corpo, pescoço e travessa da guitarra são embelezados com essas características agudas, tornando-a uma peça de destaque para qualquer entusiasta do rock.” Ele produz uma quartet de prompts ampliados. Se suas versões amplificadas não agradarem – por exemplo, se você quiser diminuir o exagero da amplificação das palavras do GPT – é possível guiá-lo em uma direção diferente.
O Dall-E 3 seguiu a maioria das minhas instruções para criar esta imagem de uma garota em uma varanda em um dia chuvoso sonhando em esquiar, mas ele mudou o tempo em seu pensamento de bolha do meu solicitado dia ensolarado para outra tempestade. “Estamos esperando que o modelo realmente consiga entender a linguagem natural de forma mais profunda”, disse Gabriel Goh, um dos pesquisadores da OpenAI que ajudaram a construir o Dall-E 3. A ideia é tirar parte da engenharia do engenheiro de prompts, uma especialidade que emergiu em círculos tecnológicos entre especialistas bons em inserir apenas o texto certo para coagi r os sistemas de IA a produzir a saída desejada.
Em vez de ver apenas um emaranhado de palavras, a IA pode compreender melhor frases e descrições, por exemplo, entendendo que você quer bigode em um homem em uma cena e cabelos ruivos em uma mulher. Também é útil: Seguindo a interface mais conversacional do ChatGPT, é possível solicitar refinamentos de seguimento como “agora adicione um fundo psicodélico de cor verde clara” e o Dall-E 3 atualizará sua saída anterior. Funcionou bem para mim. Por exemplo, quando o Dall-E exagerou um pouco no meu pedido para mostrar alguns minhocas felizes em uma caixa de composto, reprimi com o pedido: “Faça os minhocas um pouco menos eufóricos”.
Nos meus testes, fiquei mais satisfeito com os resultados em muitos casos do que estava com o Firefly AI de segunda geração da Adobe para gerar imagens. A Adobe oferece melhores controles para sintonizar seus prompts e sugerirá termos para completar um bom prompt de forma semelhante à abordagem relacionada ao GPT da OpenAI, mas com frequência o Dall-E renderizou melhor áreas problemáticas ao construir cordas de guitarra e raios de bicicleta de maneira plausível. As mãos são um ponto problemático notório para IA, mas o Dall-E 3 se saiu bem.
As melhorias na qualidade da imagem vêm principalmente de uma nova sessão de treinamento de IA que usa fotos mais cuidadosamente e precisamente rotuladas, disse Goh. Não foi perfeito. Um elefante tinha cinco pés, e os pedais de bicicleta de montanha parecem impossíveis para a IA compreender. Às vezes o Dall-E 3 fazia um grande halo branco em torno de um sujeito e contornava a muito mais difícil tarefa de compor de forma convincente com um fundo.
Aquelas minhocas às vezes tinham caras em ambas as extremidades, e geralmente residem em uma caixa de madeira construída com o tipo de construção que você só veria com uma caixa de papelão. O Dall-E 3 produziu mais de uma dúzia de imagens de abutres usando roupas de heavy metal e andando de bicicleta de montanha por uma paisagem urbana pós-apocalíptica, mas tem dificuldades com pedais e engrenagens.
Com o Dall-E 3, a OpenAI expandiu seus esforços para frustrar abusos e outros problemas, disse Sandhini Agarwal, outro membro da equipe Dall-E. Já proibia conteúdo gráfico como imagens sexuais ou violentas e bloqueava esforços para mostrar figuras públicas como políticos. Esse sistema agora foi aprimorado após nova supervisão humana, disse a OpenAI.
De fato, quando pedi uma imagem de um trabalhador da construção civil pendurado perigosamente em um cabo de segurança, o sistema primeiro criou versões mais elaboradas do meu prompt, depois parou depois de três das quatro imagens com esta mensagem: “Peço desculpas pela falha. Algumas das imagens solicitadas não estavam de acordo com nossa política de conteúdo. Como resultado, não pude gerar todas as imagens. Segurança e sensibilidade são extremamente importantes para nós.”
Nota dos editores: A CNET está usando um motor de IA para ajudar a criar algumas históri