O mais recente agente de IA do Google está aprendendo a navegar em um espaço familiar: jogos eletrônicos. A gigante da tecnologia lançou novas pesquisas sobre seu agente multiagente instrutível escalável, ou SIMA, na quarta-feira. Este agente pode seguir instruções para realizar tarefas em videogames – e jogar jogos que nunca viu antes. Mas, assim como o Genie, que a DeepMind, braço de pesquisa de IA do Google, discutiu em um artigo de pesquisa publicado em 23 de fevereiro, o SIMA é um projeto de pesquisa.
“No futuro, poderíamos ter agentes como o SIMA jogando ao seu lado”, disse Tim Harley, engenheiro de pesquisa da DeepMind que liderou o projeto. “Agentes que são cooperativos e que você pode falar e instruir a fazer várias coisas no game ao vivo.” A DeepMind diz que o interesse em videogames se deve em parte porque eles são um bom terreno de treinamento para sistemas de IA. A empresa de IA espera que pesquisas como esta permitam “compreender como os sistemas de IA podem se tornar mais úteis”.
Desde que a OpenAI lançou o ChatGPT em novembro de 2022, o mercado foi inundado com ferramentas de IA gerativa da Microsoft, Google, Adobe, Meta e Anthropic. Mais recentemente, a IA gerativa expandiu-se além da escrita para incluir imagens, vídeo, música e, claro, jogos, à medida que as empresas de tecnologia buscam distinguir suas ofertas no espaço emergente.
De acordo com Harley, o SIMA é treinado para obedecer instruções, o que não necessariamente significa vencer. As principais perguntas dos pesquisadores no início eram se um agente de IA poderia transferir habilidades entre jogos e como ele se comportaria em um jogo que nunca jogou antes. “Esses objetivos vêm em linguagem natural aberta e livre de algum usuário humano e, em seguida, [SIMA] age nesses ambientes de jogo eletrônico, apenas usando a interface natural do jogo”, disse Harley.
“E a única maneira que o agente pode observar esses jogos é apenas a partir da tela em tempo real.” Os pesquisadores gravaram imagens e as entradas do teclado e mouse de jogadores humanos e usaram técnicas de aprendizagem por imitação para ensinar o SIMA a jogar jogos como No Man’s Sky, Eco, Teardown e Goat Simulator como os humanos jogariam. Eles avaliaram o agente em 600 habilidades, incluindo navegação (como “vire à esquerda”), interação com objetos (“suba na escada”) e uso de menu (“abra o mapa”) e constataram que o SIMA se sai melhor do que especialistas em jogos.
“Ele consegue tirar vantagem dos conceitos compartilhados entre os jogos, para aprender habilidades melhores e para aprender a cumprir melhor essas instruções”, disse Frederic Besse, engenheiro de pesquisa da DeepMind. “Ver a transferência positiva entre jogos é um marco-chave para a pesquisa.” Mas o SIMA não é perfeito. “Todos os erros que vemos giram em torno de uma compreensão mais detalhada”, disse Harley. “Então, se pedirmos a um agente para derrubar uma árvore no jogo Valheim, ele irá derrubar uma árvore, mas não podemos especificar precisamente qual.” Ele é relutante em chamar as imperfeições do SIMA de “alucinações”.
“Muitas vezes, o que vemos quando o agente falha… Eu não chamaria de alucinações, seu comportamento realmente parece intencional grande parte do tempo, mas falha em executar o comportamento necessário”, acrescentou. Daqui para frente, a DeepMind espera melhorar o desempenho do SIMA, incluindo torná-lo capaz de seguir instruções mais detalhadas e, eventualmente, desenvolver sistemas de IA “que possam atuar em tantos ambientes quanto possível e alcançar uma variedade de objetivos, bem como conversar com o usuário”, disse Besse.
Mas não se trata apenas de comunicação humano-agente em jogos eletrônicos. “Acreditamos que jogos e simulações em geral fornecem um excelente terreno de treinamento para sistemas de IA”, disse Besse. Isso se deve em parte porque os jogos são uma aproximação do mundo real. Eles têm diversidade visual, junto com diversos cenários, mecânicas e estilos gráficos. Mas também compartilham temas comuns, como navegar em espaços complicados e interagir com objetos, personagens e jogadores.