A OpenAI pode estar perto de lançar uma ferramenta de IA que pode assumir o controle do seu PC e executar ações em seu nome.
Tibor Blaho, um engenheiro de software com reputação de vazar com precisão os próximos produtos de IA, afirma ter descoberto evidências da tão comentada ferramenta Operator da OpenAI. Publicações como a Bloomberg já relataram anteriormente sobre o Operator, que é considerado um sistema “agentico” capaz de lidar de forma autônoma com tarefas como escrever códigos e reservar viagens.
De acordo com The Information, a OpenAI tem como meta janeiro como o mês de lançamento do Operador. O código descoberto por Blaho neste fim de semana acrescenta credibilidade a esse relatório.
O cliente ChatGPT da OpenAI para macOS ganhou opções, ocultas por enquanto, para definir atalhos para “Toggle Operator” e “Force Quit Operator”, por Blaho. E a OpenAI adicionou referências ao Operator em seu site, disse Blaho – embora referências que ainda não sejam visíveis publicamente.
O site da OpenAI já possui referências ao Operador/OpenAI CUA (Agente de Uso de Computador) – “Tabela de Cartão do Sistema Operador”, “Tabela de Avaliação de Pesquisa do Operador” e “Tabela de Taxa de Recusa do Operador”
Incluindo comparação com o uso do computador Claude 3.5 Sonnet, Google Mariner, etc.
(visualização das tabelas… pic.twitter.com/OOBgC3ddkU
-Tibor Blaho (@ btibor91) 20 de janeiro de 2025
De acordo com Blaho, o site da OpenAI também contém tabelas ainda não públicas que comparam o desempenho do Operador com outros sistemas de IA que usam computadores. As tabelas podem muito bem ser espaços reservados. Mas se os números forem precisos, eles sugerem que o Operador não é 100% confiável, dependendo da tarefa.
O site da OpenAI já possui referências ao Operador/OpenAI CUA (Agente de Uso de Computador) – “Tabela de Cartão do Sistema Operador”, “Tabela de Avaliação de Pesquisa do Operador” e “Tabela de Taxa de Recusa do Operador”
Incluindo comparação com o uso do computador Claude 3.5 Sonnet, Google Mariner, etc.
(visualização das tabelas… pic.twitter.com/OOBgC3ddkU
-Tibor Blaho (@ btibor91) 20 de janeiro de 2025
No OSWorld, um benchmark que tenta imitar um ambiente de computador real, “OpenAI Computer Use Agent (CUA)” – possivelmente o modelo de IA que alimenta o Operador – pontua 38,1%, à frente do modelo de controle de computador da Anthropic, mas bem abaixo dos 72,4% humanos. pontuação. OpenAI CUA supera o desempenho humano no WebVoyager, que avalia a capacidade de uma IA de navegar e interagir com sites. Mas o modelo fica aquém das pontuações de nível humano em outro benchmark baseado na web, o WebArena, de acordo com os benchmarks vazados.
O operador também luta com tarefas que um ser humano poderia executar facilmente, se quisermos acreditar no vazamento. Em um teste que encarregou a Operadora de se inscrever em um provedor de nuvem e lançar uma máquina virtual, a Operadora obteve sucesso apenas em 60% das vezes. Com a tarefa de criar uma carteira Bitcoin, a Operadora conseguiu apenas 10% das vezes.
A entrada iminente da OpenAI no espaço dos agentes de IA ocorre no momento em que rivais, incluindo o já mencionado Anthropic, Google e outros, fazem jogadas para o segmento nascente. Os agentes de IA podem ser arriscados e especulativos, mas os gigantes da tecnologia já os consideram a próxima grande novidade na IA. De acordo com a empresa de análise Markets and Markets, o mercado de agentes de IA poderá valer 47,1 mil milhões de dólares até 2030.
Os agentes hoje são bastante primitivos. Mas alguns especialistas levantaram preocupações sobre a sua segurança, caso a tecnologia melhore rapidamente.
Um dos gráficos vazados mostra que o Operador tem um bom desempenho em avaliações de segurança selecionadas, incluindo testes que tentam fazer com que o sistema execute “atividades ilícitas” e pesquise “dados pessoais confidenciais”. Alegadamente, os testes de segurança estão entre as razões para o longo ciclo de desenvolvimento do Operador. Em uma postagem recente no X, o cofundador da OpenAI, Wojciech Zaremba, criticou a Anthropic por liberar um agente que ele afirma não ter mitigações de segurança.
“Só posso imaginar as reações negativas se a OpenAI fizesse um lançamento semelhante”, escreveu Zaremba.
É importante notar que a OpenAI foi criticada por pesquisadores de IA, incluindo ex-funcionários, por supostamente diminuir a ênfase no trabalho de segurança em favor da produção rápida de sua tecnologia.