A Gen AI precisa de dados sintéticos. Precisamos ser capazes de confiar nisso

“`html

Resumo:

  • Importância dos dados simulados para o treinamento de IA
  • Desafios do uso de dados sintéticos
  • Transparência como meio de garantir a confiabilidade dos modelos
  • A responsabilidade dos desenvolvedores e usuários de IA
  • Considerações éticas no uso de dados simulados

Hoje em dia, os modelos de IA generativa, como os que alimentam o ChatGPT e o Gemini, são em grande parte treinados com dados do mundo real. No entanto, mesmo a vasta quantidade de informações disponíveis na internet não é suficiente para preparar esses modelos para todas as situações possíveis. Para que esses sistemas continuem a evoluir, é essencial que sejam incorporados dados simulados, que representam cenários plausíveis, mas que não existem na realidade. A responsabilidade no uso desses dados foi um dos temas abordados por especialistas durante o evento South by Southwest, em Austin, Texas.

O uso de dados simulados ganhou destaque recentemente, especialmente com a chegada do DeepSeek AI, um modelo chinês que utilizou uma quantidade maior de dados sintéticos em seu treinamento. Essa abordagem não apenas pode reduzir custos, mas também permite que os modelos aprendam a lidar com situações que não estão presentes em dados do mundo real. A ideia é que um modelo não seja pego de surpresa por uma possibilidade rara se já tiver sido exposto a uma simulação dessa ocorrência.

O especialista Oji Udezue, que já liderou equipes de produto em empresas como Twitter e Microsoft, afirmou: “Com dados simulados, podemos eliminar a ideia de casos extremos, desde que possamos confiar nesses dados.” A premissa é que conseguiríamos desenvolver produtos que seriam eficazes para bilhões de pessoas, mas a confiança nos dados é a chave para isso.

Por outro lado, a utilização de dados simulados apresenta riscos significativos. Embora esses dados tenham o potencial de facilitar a produção, a questão principal é como um sistema treinado exclusivamente nesses dados se comportará diante de mudanças no mundo real. O professor Tahir Ekin, da Texas State University, destacou a necessidade de treinar veículos autônomos para lidar com situações inesperadas, como o surgimento de um bando de morcegos durante um trajeto, algo que pode não estar refletido nos dados de treinamento.

Udezue traçou um paralelo com a criação das redes sociais, que inicialmente visavam expandir a comunicação globalmente, mas, com o passar do tempo, acabaram sendo utilizadas para controle por governos autoritários e disseminação de desinformação. À medida que as ferramentas de IA se tornam mais populares, é essencial que os desenvolvedores garantam a confiabilidade de seus sistemas, evitando que se tornem irreais ou até mesmo perigosos.

Uma das maneiras de garantir a confiabilidade dos modelos é através da transparência no treinamento, permitindo que os usuários escolham qual modelo utilizar com base em informações claras. Os painelistas usaram a analogia do rótulo nutricional, que facilita a compreensão por parte do usuário. Existe alguma transparência, como os modelos disponibilizados na plataforma Hugging Face, mas o diretor de gestão de produtos da Nvidia, Mike Hollinger, enfatizou que essas informações devem ser sempre o mais claras e transparentes possível.

Além disso, é crucial que não apenas os desenvolvedores de IA, mas também os usuários desempenhem um papel em definir as melhores práticas da indústria. Udezue fez um alerta sobre a necessidade de observar as considerações éticas e os riscos associados ao uso de dados sintéticos, afirmando que embora essa abordagem traga economia, pode também impactar a sociedade de formas inesperadas.

A observabilidade, a transparência e a confiança precisam ser incorporadas aos modelos para aumentar sua confiabilidade. Ele aconselhou que é essencial atualizar os modelos de treinamento para que reflitam dados precisos, evitando potencializar erros decorrentes de dados sintéticos. Uma preocupação emergente é a chamada “colapso do modelo”, que ocorre quando um modelo treinado com dados gerados por outras IA se torna progressivamente distorcido da realidade, chegando ao ponto de se tornar inútil.

“Quanto mais evitarmos capturar a diversidade do mundo real, mais as respostas podem se tornar prejudiciais”, advertiu Udezue. A solução passa por um processo de correção de erros, e ele acredita que combinando confiança, transparência e correção de erros, muitos desses desafios podem ser solucionados.

Digital codes
“`