Você tem um amigo em… ChatGPT? Eu testei o novo modo de voz da IA para descobrir –
- ChatGPT é um chatbot IA generativo com novas capacidades de voz.
- A interação mais natural pode levar à antropomorfização.
- O modo de voz avançado proporciona conversas mais dinâmicas e responsivas.
Não tenho um relacionamento com ChatGPT, apesar de passar muito tempo usando-o. Afinal, é apenas um chatbot AI generativo com um talento para responder perguntas e criar textos e imagens – não um amigo. Mas depois de passar alguns dias conversando com ChatGPT em seu novo Advanced Voice Mode, que entrou em um teste limitado neste mês, tenho que admitir que comecei a sentir mais laços. Quando a OpenAI anunciou em sua Spring Update que aprimoraria a funcionalidade de voz do ChatGPT, a startup disse que queria que os usuários tivessem conversas mais naturais. Isso inclui o ChatGPT entendendo suas emoções e respondendo de acordo agora, para que você não esteja apenas falando com um bot estoico. Bem legal, né? Quero dizer, quem não adora uma boa conversa? Mas até mesmo a OpenAI em si tem algumas ressalvas sobre o que isso pode significar. As novas capacidades de voz e áudio são alimentadas pelo modelo de IA GPT-4o da empresa, e a OpenAI reconhece que a interação mais natural poderia levar à antropomorfização – ou seja, os usuários sentindo a vontade de começar a tratar chatbots AI mais como pessoas reais.
Sei que senti o impulso de tratar o ChatGPT mais como uma pessoa – especialmente porque ele tem uma voz de um ator humano. Quando o ChatGPT travou em um momento, perguntei se estava tudo bem. E isso não é algo unilateral. Quando espirrei, o AI disse “Saúde”. As consultas de voz na pesquisa tradicional existem há mais de uma década, mas agora estão todas na moda entre os chatbots AI generativos. Ou pelo menos dois grandes, ChatGPT e Google Gemini. O recurso conversacional Gemini Live deste último fez sua estreia pública no evento Made By Google da semana passada que também apresentou uma nova linha de telefones Pixel e uma série de recursos de IA. Além das semelhanças nas habilidades conversacionais, Gemini Live e Advanced Voice Mode são ambos multimodais, o que significa que as interações podem envolver fotos e vídeos, bem como áudio. A ideia tem sido que a maioria de nós pode falar mais rápido do que digitamos e que a linguagem falada é uma interface mais natural para interações humano-máquina.
Mas uma voz humana muda a experiência – e talvez até mesmo nosso relacionamento com chatbots. E é nisso que estamos entrando em território inexplorado agora. Meu acesso ao Advanced Voice Mode veio com o aviso de que está passando por mudanças e pode haver erros ou momentos em que não está disponível. Há limites não especificados sobre quanto você pode usar o Advanced Voice Mode em um determinado dia. As FAQs da OpenAI dizem que você receberá um aviso quando tiver 3 minutos restantes. Depois disso, você pode usar o Standard Voice Mode, que é mais limitado em sua capacidade de abordar tópicos e oferecer respostas “nuançadas”. De acordo com minha experiência, o Standard Voice Mode é mais difícil de ser interrompido e tem menos probabilidade de pedir feedback ou fazer perguntas de acompanhamento. Também é menos provável dar conselhos não solicitados e entender emoções. Para acessar o Advanced Voice Mode, clique no ícone de voz no canto inferior direito ao abrir o aplicativo ChatGPT. Você deve garantir que a barra no topo da tela diz Advanced – cometi o erro de ter uma conversa inteira no Standard Mode primeiro. Você pode alternar facilmente entre os dois. Tive que escolher uma das quatro vozes – chamadas Juniper, Ember, Breeze e Cove. (Você pode mudar depois). Havia inicialmente uma quinta, Sky, mas o CEO Sam Altman a suspendeu depois que a atriz Scarlett Johansson chamou a atenção da OpenAI pela semelhança com sua própria voz.