Novos dados mostram que empresas de IA adoram conteúdo de ‘editor premium’ –

  • Empresas de AI confiam fortemente no conteúdo de editores premium para treinar seus modelos de linguagem de grande escala, mesmo que minimizem regularmente o uso desse conteúdo protegido por direitos autorais.
  • As empresas de AI utilizam a autoridade de domínio dos sites para distinguir conteúdos de alta qualidade e humanos para treinar seus modelos.
  • Os editores de notícias estão em um cenário competitivo online, enfrentando desafios para encontrar audiências entre o ruído de pesquisa online, “slop” gerado por AI e mídias sociais.

OpenAI, Google, Meta e Anthropic dependem profundamente do conteúdo de editores premium para treinar os grandes modelos de linguagem, ou LLMs, no cerne de seus esforços de AI, mesmo que essas empresas frequentemente minimizem o uso desse conteúdo protegido por direitos autorais, de acordo com uma nova pesquisa divulgada esta semana pela gigante de publicação online Ziff Davis.

A empresa detalhou a pesquisa, que foi escrita por George Wukoson da Ziff Davis, advogado líder em AI, e pelo Diretor de Tecnologia Joey Fortuna, relatando que as empresas de AI filtravam intencionalmente conteúdos de baixa qualidade em favor de conteúdos de alta qualidade e feitos por humanos para treinar seus modelos.

Muitas empresas de AI têm sido secretas sobre a origem das informações que alimentam as respostas nos chatbots populares como o ChatGPT e o Gemini. Isso levanta preocupações sobre a transparência das fontes, sua confiabilidade e se os dados de treinamento podem ser tendenciosos ou perpetuar estereótipos prejudiciais.