Início Tecnologia Deepseek vai além de “Pesos abertos” ai com planos de liberação do...

Deepseek vai além de “Pesos abertos” ai com planos de liberação do código -fonte

7
0

Os principais modelos, incluindo Gemma do Google, Llama do Meta e até mesmo mais antigos lançamentos do OpenAI como o GPT2, foram lançados sob essa estrutura de pesos abertos. Esses modelos também costumam liberar o código-fonte aberto que cobre as instruções de tempo de inferência executadas ao responder a uma consulta.

Atualmente, não está claro se a liberação planejada de código aberto da DeepSeek também incluirá o código que a equipe usou ao treinar o modelo. Esse tipo de código de treinamento é necessário para atender à definição formal de “código aberto da IA ​​de código aberto”, que foi finalizado no ano passado após anos de estudo. Uma IA verdadeiramente aberta também deve incluir “informações suficientemente detalhadas sobre os dados usados ​​para treinar o sistema para que uma pessoa qualificada possa construir um sistema substancialmente equivalente”, de acordo com a OSI.

Uma liberação totalmente aberta, incluindo o código de treinamento, pode oferecer aos pesquisadores mais visibilidade sobre como um modelo funciona em um nível central, potencialmente revelando vieses ou limitações que são inerentes à arquitetura do modelo, em vez de seus pesos de parâmetros. Uma liberação completa da fonte também facilitaria a reprodução de um modelo do zero, potencialmente com dados de treinamento completamente novos, se necessário.

O Xai de Elon Musk lançou uma versão de código aberto do código de inferência de Grok 1 em março passado e recentemente prometeu lançar uma versão de código aberto do GROK 2 nas próximas semanas. Mas o recente lançamento do GROK 3 permanecerá proprietário e disponível apenas para assinantes do X Premium por enquanto, disse a empresa.

No início deste mês, a Huggingface lançou um clone de código aberto da “pesquisa profunda” da Openai, poucas horas após o lançamento. Esse clone depende de um modelo de pesos fechados no lançamento “apenas porque funcionou bem”, disse o Aycheric Roucher do Hugging Face ao Ars Technica, mas o “Open Pipeline” do código-fonte pode ser facilmente alterado para qualquer modelo de peso aberto, conforme necessário.

Fonte