Eu pronunciei essas palavras enquanto usava um par de óculos Meta Ray-Ban na sede da gigante tecnológica em Nova York, enquanto olhava para uma mesa com quatro saquinhos de chá com seus rótulos de cafeína apagados com um marcador mágico. Um pequeno ruído no meu ouvido foi seguido pela voz artificial da Meta me dizendo que o chá de camomila provavelmente era livre de cafeína. Ele estava lendo os rótulos e fazendo julgamentos usando IA generativa.
Estava mostrando um recurso que está chegando aos óculos da segunda geração da Meta Ray-Ban a partir de hoje, um recurso que o CEO da Meta, Mark Zuckerberg, já havia prometido em setembro, quando os novos óculos foram anunciados. Os recursos de IA, que podem acessar as câmeras nos óculos da Meta para olhar imagens e interpretá-las com IA generativa, deveriam ser lançados em 2024. A Meta decidiu introduzir esses recursos muito mais rápido do que eu esperava, embora o modo de acesso antecipado ainda esteja muito em fase beta. Junto com a adição de busca habilitada pelo Bing nos óculos Ray-Ban como parte de uma nova atualização, o que aumenta o poder das capacidades de voz já disponíveis nos óculos, os óculos da Meta estão começando a ganhar várias novas habilidades rapidamente.
Fiquei bastante impressionado com a demonstração porque nunca havia visto nada parecido. Já existem ferramentas como Google Lens e outras ferramentas de smartphone que usam câmeras e IA juntas, e os óculos Google – há uma década – tinham algumas ferramentas de tradução. Mas a forma fácil como os óculos da Meta invocam a IA para identificar coisas no mundo ao meu redor parece bastante avançada. Estou animado para testá-lo muito mais.
Os óculos não têm tela e só reproduzem as respostas. Mas o app Meta View salva as fotos e respostas da IA para depois. O recurso tem limites no momento. Ele só pode reconhecer o que você vê tirando uma foto, que a IA então analisa. Você pode ouvir o estalido do obturador após uma solicitação de voz e leva alguns segundos para uma resposta. Os prompts de voz também são detalhados: Cada solicitação de voz nos óculos da Meta precisa começar com “Hey, Meta” e depois você precisa seguir com “Take a look at this” para ativar a captura de foto, imediatamente seguida pelo que você deseja solicitar à IA para fazer.
Todas as respostas da IA e a foto examinada são armazenadas no app Meta View que se emparelha com os óculos. Gosto disso, porque é um registro visual/escrito para depois, como lembranças anotadas. Eu poderia imaginar andar por aí e fazer perguntas, usando isso como uma espécie de pesquisa de cabeça para os meus olhos, enquanto compro ou sei lá o quê.
Não tentei os óculos da Meta enquanto cozinhava – ainda. Também pode ter usos possíveis para propósitos de assistência. Usei um par de teste dos óculos Meta que não tinha minha receita e perguntei o que estava olhando. As respostas podem variar em detalhes e precisão, mas podem dar uma dica. Ele sabia que eu estava mostrando meus óculos, que ele disse ter lentes azuladas (armação preta e azul, bastante preciso).
Às vezes ele pode alucinar. Perguntei aos óculos sobre frutas em uma tigela na minha frente e ele disse que havia laranjas, bananas, fruta-pão, maçãs e romãs. Estava correto, exceto pelas romãs. (Não havia nenhuma delas.) Fui pedido para fazê-lo fazer uma legenda para um grande panda de pelúcia em frente a uma janela. Fez algumas fofas, mas uma era sobre alguém se sentindo solitário e olhando para o telefone, o que não correspondia.
Olhei para um menu em espanhol e pedi aos óculos para me mostrarem pratos picantes. Ele leu alguns pratos e traduziu alguns ingredientes-chave para mim, mas quando pedi novamente sobre pratos com carne, ele leu tudo de volta em espanhol.
As possibilidades aqui são selvagens e fascinantes, e possivelmente incrivelmente úteis. A Meta admite que este lançamento inicial será sobre a descoberta de bugs e ajudar a evoluir a forma como a IA funciona nos óculos. Notei que havia momentos demais de “Hey, Meta, olhe para isso”. Mas esse processo pode mudar, quem sabe. Quando engajado em análise de imagens imediata, fazer perguntas de acompanhamento direto pode funcionar sem dizer “Olhe para isso” novamente, mas tenho certeza que o meu sucesso variará.
Quando as legendas serão úteis e quando elas alucinarão, então? Essa IA, que a Meta chama de “multimodal AI” porque usa câmeras e bate-papo de voz juntos, é um precursor da IA futura que a empresa planeja misturar muitas formas de inputs, incluindo mais dados sensoriais. O chipset focado em IA da Qualcomm nos novos Ray-Bans da Meta já parece pronto para assumir mais. É também um processo que a Meta planeja tornar mais seamless com o tempo.
Editores nota: A CNET está usando um motor de IA para ajudar a criar algumas histórias. Para mais detalhes, veja esta postagem.