Home / Gadgets / A aposta da Amazon de que os benchmarks de IA não importam

A aposta da Amazon de que os benchmarks de IA não importam

Este é um trecho de Sources by Alex Heath, um boletim informativo sobre IA e a indústria de tecnologia, distribuído apenas para assinantes do The Verge uma vez por semana.

O chefe de IA da Amazon tem uma mensagem para os obsessivos por benchmark de modelos: parem de olhar para as tabelas de classificação.

“Quero utilidade no mundo real. Nenhum desses benchmarks é real”, disse-me Rohit Prasad, vice-presidente sênior de AGI da Amazon, antes dos anúncios de hoje no AWS re:Invent em Las Vegas. “A única maneira de fazer um benchmarking real é se todos estiverem em conformidade com os mesmos dados de treinamento e as avaliações forem completamente realizadas. Não é isso que está acontecendo. As avaliações estão francamente ficando barulhentas e não estão mostrando o verdadeiro poder desses modelos.”

É uma postura contrária quando todos os outros laboratórios de IA se gabam rapidamente de como seus novos modelos sobem rapidamente nas tabelas de classificação. Também é conveniente para a Amazon, visto que a versão anterior do Nova, seu modelo carro-chefe, estava na posição 79 na LMArena quando Prasad e eu conversamos na semana passada. Ainda assim, descartar os benchmarks só funciona se a Amazon puder oferecer uma história diferente sobre como é o progresso.

“Eles não estão mostrando o verdadeiro poder desses modelos.”

A peça central dos anúncios re:Invent de hoje é o Nova Forge, um serviço que a Amazon afirma permitir que as empresas treinem modelos de IA personalizados de maneiras anteriormente impossíveis sem gastar bilhões de dólares. O problema que Forge aborda é real. A maioria das empresas que tentam personalizar modelos de IA enfrentam três opções ruins: ajustar um modelo fechado (mas apenas nas bordas), treinar em modelos abertos (mas sem os dados de treinamento originais e arriscando a regressão de capacidade, onde a IA se torna especialista em novos dados, mas esquece habilidades originais e mais amplas) ou construir um modelo do zero a um custo enorme.

O Forge oferece outra coisa: acesso aos pontos de verificação do modelo Nova da Amazon nos estágios de pré-treinamento, meio de treinamento e pós-treinamento. As empresas podem injetar os seus dados proprietários no início do processo, quando a “capacidade de aprendizagem do modelo é mais elevada”, como disse Prasad, em vez de apenas ajustar o comportamento do modelo no final.

“O que fizemos foi democratizar a IA e o desenvolvimento de modelos de fronteira para seus casos de uso por frações do que custaria [before]”, disse Prasad. O Forge foi criado porque as equipes internas da Amazon queriam uma ferramenta para injetar seu conhecimento de domínio em um modelo básico sem ter que construir do zero.

“Construímos o Forge porque nossas equipes internas queriam o Forge”, disse ele. É um padrão familiar da Amazon. A própria AWS começou como uma infraestrutura construída para a operação de varejo da própria Amazon antes de se tornar o mecanismo de lucro da empresa.

O Reddit tem usado o Forge para construir modelos de segurança personalizados, treinados em 23 anos de dados de moderação da comunidade. “Ainda não vi nada parecido”, disse-me Chris Slowe, CTO e primeiro funcionário do Reddit. “Tivemos um engenheiro distinto que parecia uma criança na loja de doces.”

Slowe disse que o Reddit realizou um trabalho contínuo de pré-treinamento na semana passada que “parece realmente promissor”. O objetivo: substituir vários modelos de segurança personalizados por um único modelo especializado no Reddit que entende as nuances da moderação da comunidade, incluindo a regra notoriamente subjetiva que aparece em subreddits em todos os lugares: “Não seja um idiota”.

“Ter um modelo especializado permitirá compreender a comunidade”, disse Slowe. “Vai ter uma boa noção do que significa idiota.”

Esse é o fio condutor que a Amazon deseja que os desenvolvedores utilizem: não pontos de QI brutos, mas controle e especialização.

Ele explicou que o Forge permite que o Reddit controle seus modelos, evite surpresas com alterações de API, retenha a propriedade de seus pesos e evite o envio de dados confidenciais a fornecedores de modelos terceirizados. Ele disse que o Reddit já está explorando o uso da mesma abordagem para o Reddit Answers e outros produtos.

Quando perguntei a Slowe se importava que Nova não fosse um modelo de primeira linha em benchmarks, ele foi direto: “Neste contexto, o que importa é a experiência do modelo no Reddit”. Esse é o fio condutor que a Amazon deseja que os desenvolvedores utilizem: não pontos de QI brutos, mas controle e especialização.

Com o Forge, a Amazon está fazendo uma aposta calculada de que a corrida modelo se tornou uma commodity e que pode ter sucesso sendo o lugar onde as empresas podem construir IA especializada para problemas de negócios específicos. É uma visão de mundo muito moldada pela AWS: infraestrutura em vez de inteligência e personalização em vez de capacidade bruta. A estratégia também permite que a Amazon evite comparações diretas com OpenAI e Anthropic, com as quais ela esperava competir na camada de modelo.

Se o Forge é genuinamente pioneiro ou apenas um posicionamento inteligente depende, é claro, da adoção do desenvolvedor. A Amazon insiste que a corrida modelo, como é amplamente entendida, não importa. Se isso acabar sendo verdade, o placar muda para algo muito mais silencioso e mais difícil de controlar: se os modelos de IA realmente oferecem utilidade no mundo real.

Siga tópicos e autores desta história para ver mais como esta no feed da sua página inicial personalizada e para receber atualizações por e-mail.


Fonte

Deixe um Comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *