Acontece que você pode treinar modelos de IA sem material protegido por direitos autorais

<h2>Treinamento de modelos de IA sem material protegido por direitos autorais</h2>
<ul>
<li>Pesquisadores treinam modelo de IA sem usar material protegido por direitos autorais</li>
<li>Dataset utilizado foi de 8 TB e incluiu obras do domínio público e licenciadas abertamente</li>
<li>Modelo resultante teve desempenho comparável ao Llama 2-7B da Meta</li>
</ul>

<p>É possível treinar modelos de IA sem usar material protegido por direitos autorais. No entanto, o processo é trabalhoso e desafiador. Pesquisadores de várias instituições, incluindo universidades e institutos de pesquisa, colaboraram em um estudo para provar essa afirmação.</p>

<p><img src=”imagem_openai.jpg” alt=”OpenAI”></p>

<p>O estudo resultou na criação de um dataset de 8 TB, composto por obras do domínio público e licenciadas abertamente, incluindo 130.000 livros da Biblioteca do Congresso. Com esses dados, os pesquisadores treinaram um modelo de linguagem grande (LLM) com sete bilhões de parâmetros.</p>

<p>O desempenho do modelo foi comparável ao do Llama 2-7B da Meta, lançado em 2023. No entanto, o processo de criação do dataset foi trabalhoso, pois grande parte dos dados não podia ser lida por máquinas e precisou ser anotada manualmente.</p>

<p><img src=”imagem_modelo_ia.jpg” alt=”Modelo de IA”></p>

<p>A principal conclusão do estudo é que é possível treinar modelos de IA sem usar material protegido por direitos autorais, embora seja um processo difícil e demorado. Isso contraria a afirmação de algumas empresas de IA de que seus modelos não poderiam existir sem o uso de material protegido por direitos autorais.</p>

<p>O estudo pode ter implicações legais e regulatórias, pois desafia um dos argumentos comuns da indústria de IA. No entanto, é improvável que mude a trajetória das empresas de IA, que continuam a buscar modelos mais poderosos e eficientes.</p>