O texto que você está lendo agora foi digitado por um ser humano em um documento do Google. Mas esse pode não ser o caso com o texto que você encontra em outros lugares. Com o aumento de programas de inteligência artificial generativa aos quais o público tem acesso gratuito, como o ChatGPT para texto e o Midjourney para imagens, está se tornando mais difícil distinguir o texto criado por humanos daquele gerado por uma IA.
A inteligência artificial – sistemas automatizados de computador, algoritmos e aprendizado de máquina – tem sido usada há muito tempo em mídias sociais, pesquisa científica, publicidade, agricultura e indústria, principalmente sem ser notada. Mas o surgimento do ChatGPT da OpenAI iniciou uma corrida armamentista em lugares como a sala de aula, onde os alunos recorreram ao programa para trapacear, criando ensaios que soam completamente humanos. Os professores implantaram softwares de detecção na esperança de pegar os plagiadores em ação.
Em um novo estudo publicado na revista Patterns na segunda-feira, pesquisadores da Universidade de Stanford examinaram a confiabilidade desses detectores de IA generativa na determinação se um texto foi escrito por um humano ou por uma IA. A equipe ficou surpresa ao descobrir que alguns dos detectores GPT mais populares, que são projetados para identificar textos gerados por aplicativos como o ChatGPT, rotineiramente classificam incorretamente a escrita de falantes não nativos de inglês como gerada por IA, destacando limitações e preconceitos dos usuários que precisam estar cientes.
A equipe pegou 91 ensaios do TOEFL (Teste de Inglês como Língua Estrangeira) de um fórum chinês e 88 ensaios escritos por alunos do oitavo ano nos EUA. Eles rodaram esses ensaios em sete detectores GPT prontos para uso, incluindo o detector da OpenAI e o GPTZero, e descobriram que apenas 5,1% dos ensaios dos alunos americanos foram classificados como “gerados por IA”. Por outro lado, os ensaios do TOEFL escritos por humanos foram classificados incorretamente 61% das vezes. Um detector específico sinalizou 97,8% dos ensaios do TOEFL como gerados por IA. Todos os sete detectores sinalizaram 18 dos 91 ensaios do TOEFL como gerados por IA. Quando os pesquisadores investigaram mais a fundo esses 18 ensaios, eles perceberam que a baixa “perplexidade do texto” provavelmente era a razão. A perplexidade é uma medida de proxy para a variabilidade ou aleatoriedade em um determinado texto. Os escritores não nativos de inglês foram mostrados anteriormente ter um vocabulário menos rico e usar gramática menos rica. Isso, para os detectores GPT, faz parecer que foi escrito por uma IA. Basicamente, se você usar um texto mais verborrágico e literário, é menos provável que seja classificado como IA. Mas isso mostra um preconceito preocupante e levanta preocupações de que os falantes não nativos de inglês possam ser afetados adversamente em situações como exames escolares ou processos de seleção de emprego, onde seu texto é sinalizadocomo gerado por IA, mesmo que tenha sido escrito por um humano.
Apesar dessas limitações, os detectores de IA podem ter usos promissores, como ajudar a detectar fraudes acadêmicas e plágio. No entanto, é necessário mais pesquisa e diálogo sobre seu uso adequado antes de serem aplicados em situações avaliativas ou educacionais. É importante que educadores e avaliadores estejam cientes dessas limitações e preconceitos ao usar detectores de IA para garantir que não causem danos inadvertidos a indivíduos que não são falantes nativos de inglês ou que escrevem de maneira diferente da esperada pelos detectores de IA.