O Reddit está processando as empresas SerApi, OxyLabs, AWMProxy e Perplexity por supostamente extrair seus dados dos resultados de pesquisa e usá-los sem licença, O jornal New York Times relatórios. O novo processo segue uma ação legal contra a startup de IA Anthropic, que supostamente usou conteúdo do Reddit para treinar seu chatbot Claude.
A partir de 2023, o Reddit cobrará das empresas que buscam acesso a postagens e outros conteúdos na esperança de ganhar dinheiro com dados que poderiam ser usados para treinamento de IA. A empresa também assinou acordos de licenciamento com empresas como Google e OpenAI, e até construiu sua própria secretária eletrônica de IA para aproveitar o conhecimento nas postagens dos usuários. A extração dos resultados da pesquisa de conteúdo do Reddit evita esses pagamentos, e é por isso que a empresa está buscando indenização financeira e uma liminar permanente que impede as empresas de vender material do Reddit anteriormente copiado.
Algumas das empresas nas quais o Reddit está focado, como SerApi, OxyLabs e AWMProxy, não são exatamente nomes conhecidos, mas todas fizeram da coleta de dados dos resultados de pesquisa e da venda deles uma parte fundamental de seus negócios. A inclusão da Perplexity no processo pode ser mais óbvia. A empresa de IA precisa de dados para treinar seus modelos e já foi pega aparentemente copiando e regurgitando material que não pagou para licenciar. Isso também inclui supostamente ignorar o protocolo robots.txt, uma forma de os sites comunicarem que não desejam que seu material seja copiado.
De acordo com uma cópia do processo fornecida ao Engadget, o Reddit já havia enviado um pedido de cessação e desistência ao Perplexity, pedindo-lhe que parasse de copiar postagens sem licença. A empresa alegou que não utilizou dados do Reddit, mas também continuou citando a plataforma nas respostas de seu chatbot. O Reddit diz que foi capaz de provar que o Perplexity estava usando conteúdo copiado do Reddit criando uma “postagem de teste” que “só poderia ser rastreada pelo mecanismo de busca do Google e não era acessível de outra forma em nenhum lugar da Internet”. Em poucas horas, as consultas feitas ao mecanismo de resposta do Perplexity conseguiram reproduzir o conteúdo da postagem.
“A única maneira pela qual a Perplexity poderia ter obtido esse conteúdo do Reddit e depois usá-lo em seu ‘mecanismo de resposta’ seria se ela e/ou seus co-réus raspassem o Google [search results] para esse conteúdo do Reddit e o Perplexity rapidamente incorporou esses dados em seu mecanismo de resposta”, afirma o processo.
Quando solicitado a comentar, Perplexity forneceu a seguinte declaração:
A Perplexidade ainda não recebeu a ação judicial, mas sempre lutaremos vigorosamente pelos direitos dos usuários de acesso livre e justo ao conhecimento público. A nossa abordagem permanece baseada em princípios e responsável, pois fornecemos respostas factuais com IA precisa e não toleraremos ameaças contra a abertura e o interesse público.
Este novo processo se enquadra na postura agressiva que o Reddit adotou para proteger seus dados, incluindo a limitação de taxas de bots desconhecidos e rastreadores da web em 2024, e até mesmo limitar o acesso que a Wayback Machine do Internet Archive tem ao seu site em agosto de 2025. A empresa também procurou definir novos termos sobre como os sites são rastreados, adotando o padrão Really Simple Licensing, que adiciona termos de licenciamento ao robots.txt.









