Home / Gadgets / OpenAI desesperada para evitar explicar por que excluiu conjuntos de dados de livros piratas

OpenAI desesperada para evitar explicar por que excluiu conjuntos de dados de livros piratas

A OpenAI poderá em breve ser forçada a explicar por que excluiu dois conjuntos de dados controversos compostos de livros piratas, e os riscos não poderiam ser maiores.

No centro de uma ação coletiva de autores alegando que o ChatGPT foi treinado ilegalmente em seus trabalhos, a decisão da OpenAI de excluir os conjuntos de dados pode acabar sendo um fator decisivo que dará a vitória aos autores.

É indiscutível que a OpenAI excluiu os conjuntos de dados, conhecidos como “Livros 1” e “Livros 2”, antes do lançamento do ChatGPT em 2022. Criados por ex-funcionários da OpenAI em 2021, os conjuntos de dados foram construídos raspando a web aberta e apreendendo a maior parte de seus dados de uma biblioteca sombra chamada Library Genesis (LibGen).

Como conta a OpenAI, os conjuntos de dados caíram em desuso naquele mesmo ano, o que levou a uma decisão interna de excluí-los.

Mas os autores suspeitam que há mais nesta história do que isso. Eles observaram que a OpenAI pareceu mudar de direção ao retirar sua alegação de que a “não utilização” dos conjuntos de dados era um motivo para exclusão, e mais tarde alegando que todos os motivos para exclusão, incluindo a “não utilização”, deveriam ser protegidos pelo privilégio advogado-cliente.

Para os autores, parecia que a OpenAI estava recuando rapidamente depois que o tribunal atendeu aos pedidos de descoberta dos autores para revisar as mensagens internas da OpenAI sobre o “não uso” da empresa.

Na verdade, a reversão da OpenAI apenas deixou os autores mais ansiosos para ver como a OpenAI discutiu o “não uso”, e agora eles podem descobrir todas as razões pelas quais a OpenAI excluiu os conjuntos de dados.

Na semana passada, a juíza distrital dos EUA, Ona Wang, ordenou que a OpenAI compartilhasse todas as comunicações com os advogados internos sobre a exclusão dos conjuntos de dados, bem como “todas as referências internas à LibGen que a OpenAI redigiu ou reteve com base no privilégio advogado-cliente”.

De acordo com Wang, a OpenAI escorregou ao argumentar que o “não uso” não era um “motivo” para a exclusão dos conjuntos de dados, ao mesmo tempo em que alegou que também deveria ser considerado um “motivo” considerado privilegiado.

Fonte

Deixe um Comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *