Experimentei o Dall-E 3. As imagens de IA são mais ousadas, mais detalhadas e mais divertidas

Publicado em 20 de outubro de 2023 por allan

O novo sistema de IA da OpenAI Dall-E 3 gera imagens a partir de prompts de texto e está disponível para clientes corporativos.

O Dall-E 3 apresenta melhorias em relação à versão anterior, como imagens mais nítidas e detalhadas e maior capacidade de compreensão do texto no prompt.

O sistema embarca a tecnologia de geração de texto do ChatGPT da OpenAI, ampliando os prompts de texto fornecidos pelo usuário.

Se você quer injetar nova energia nas imagens geradas por IA, transformando prompts de texto em arte extravagante, uma nova opção chegou na quinta-feira, quando a OpenAI lançou sua tecnologia Dall-E 3 para clientes pagos. O novo modelo de inteligência artificial é projetado para compreender melhor o que seus prompts de texto significam, produzir imagens detalhadas e contornar a área legalmente problemática de imitar os estilos de artistas vivos.

Nos meus testes, percebi que o Dall-E 3 é um grande avanço em relação ao Dall-E 2 de 2022. As imagens eram mais vívidas, detalhadas e frequentemente divertidas. E elas eram mais convincentes, com menos casos de estranheza que distraía. A nova tecnologia de amplificação do prompt pode tornar as imagens mais impactantes, mas também pode ir longe demais às vezes se você não quiser subir o volume para 11.

Quando emergiu pela primeira vez em 2021, o Dall-E ajudou a mostrar ao mundo as possibilidades criativas da inteligência artificial. Meses depois, o ChatGPT da OpenAI fez o mesmo para a IA gerativa que poderia escrever poemas e parágrafos de prosa. Com o Dall-E 3, o sistema de geração de imagens está diretamente integrado ao ChatGPT. Uma imagem do Dall-E gerada de um elefante fazendo paraquedismo prestes a pousar em um campo gramado.

As tecnologias desencadearam uma explosão de interesse na IA gerativa, agora apresentada nas ferramentas principais do Google, Microsoft, Adobe e uma pilha de startups. Ao mesmo tempo em que a IA gerativa assusta os profissionais, preocupados que será mais barata do que humanos em trabalhos como resumir documentos legais e criar storyboards de vídeo, ela também pode ajudar pessoas sem essas habilidades a concluírem mais tarefas.

O Dall-E 3 está disponível para clientes corporativos e para quem paga US$ 20 por mês pela assinatura ChatGPT Plus da OpenAI. A tecnologia incorpora as habilidades de processamento de texto do ChatGPT e seu motor subjacente GPT-4 para uma melhor compreensão dos prompts de texto, disse a OpenAI. Você pode ver como a tecnologia GPT aprimora seus prompts de texto.

Por exemplo, quando digitei “guitarra elétrica com um design espinhento”, o GPT atualizou para “Ilustração de uma guitarra elétrica distinta, onde o elemento principal do design é sua multidão de espinhos. O corpo, pescoço e travessa da guitarra são embelezados com essas características agudas, tornando-a uma peça de destaque para qualquer entusiasta do rock.” Ele produz uma quartet de prompts ampliados. Se suas versões amplificadas não agradarem – por exemplo, se você quiser diminuir o exagero da amplificação das palavras do GPT – é possível guiá-lo em uma direção diferente.

O Dall-E 3 seguiu a maioria das minhas instruções para criar esta imagem de uma garota em uma varanda em um dia chuvoso sonhando em esquiar, mas ele mudou o tempo em seu pensamento de bolha do meu solicitado dia ensolarado para outra tempestade. “Estamos esperando que o modelo realmente consiga entender a linguagem natural de forma mais profunda”, disse Gabriel Goh, um dos pesquisadores da OpenAI que ajudaram a construir o Dall-E 3. A ideia é tirar parte da engenharia do engenheiro de prompts, uma especialidade que emergiu em círculos tecnológicos entre especialistas bons em inserir apenas o texto certo para coagi r os sistemas de IA a produzir a saída desejada.

Em vez de ver apenas um emaranhado de palavras, a IA pode compreender melhor frases e descrições, por exemplo, entendendo que você quer bigode em um homem em uma cena e cabelos ruivos em uma mulher. Também é útil: Seguindo a interface mais conversacional do ChatGPT, é possível solicitar refinamentos de seguimento como “agora adicione um fundo psicodélico de cor verde clara” e o Dall-E 3 atualizará sua saída anterior. Funcionou bem para mim. Por exemplo, quando o Dall-E exagerou um pouco no meu pedido para mostrar alguns minhocas felizes em uma caixa de composto, reprimi com o pedido: “Faça os minhocas um pouco menos eufóricos”.

Nos meus testes, fiquei mais satisfeito com os resultados em muitos casos do que estava com o Firefly AI de segunda geração da Adobe para gerar imagens. A Adobe oferece melhores controles para sintonizar seus prompts e sugerirá termos para completar um bom prompt de forma semelhante à abordagem relacionada ao GPT da OpenAI, mas com frequência o Dall-E renderizou melhor áreas problemáticas ao construir cordas de guitarra e raios de bicicleta de maneira plausível. As mãos são um ponto problemático notório para IA, mas o Dall-E 3 se saiu bem.

As melhorias na qualidade da imagem vêm principalmente de uma nova sessão de treinamento de IA que usa fotos mais cuidadosamente e precisamente rotuladas, disse Goh. Não foi perfeito. Um elefante tinha cinco pés, e os pedais de bicicleta de montanha parecem impossíveis para a IA compreender. Às vezes o Dall-E 3 fazia um grande halo branco em torno de um sujeito e contornava a muito mais difícil tarefa de compor de forma convincente com um fundo.

Aquelas minhocas às vezes tinham caras em ambas as extremidades, e geralmente residem em uma caixa de madeira construída com o tipo de construção que você só veria com uma caixa de papelão. O Dall-E 3 produziu mais de uma dúzia de imagens de abutres usando roupas de heavy metal e andando de bicicleta de montanha por uma paisagem urbana pós-apocalíptica, mas tem dificuldades com pedais e engrenagens.

Com o Dall-E 3, a OpenAI expandiu seus esforços para frustrar abusos e outros problemas, disse Sandhini Agarwal, outro membro da equipe Dall-E. Já proibia conteúdo gráfico como imagens sexuais ou violentas e bloqueava esforços para mostrar figuras públicas como políticos. Esse sistema agora foi aprimorado após nova supervisão humana, disse a OpenAI.

De fato, quando pedi uma imagem de um trabalhador da construção civil pendurado perigosamente em um cabo de segurança, o sistema primeiro criou versões mais elaboradas do meu prompt, depois parou depois de três das quatro imagens com esta mensagem: “Peço desculpas pela falha. Algumas das imagens solicitadas não estavam de acordo com nossa política de conteúdo. Como resultado, não pude gerar todas as imagens. Segurança e sensibilidade são extremamente importantes para nós.”

Nota dos editores: A CNET está usando um motor de IA para ajudar a criar algumas históri

Deixe um comentário Cancelar resposta