O mais recente modelo de IA Claude 3.5 Sonnet da Anthropic possui um novo recurso em beta público que pode controlar um computador olhando para a tela, movendo um cursor, clicando em botões e digitando texto. O novo recurso, chamado “uso de computador”, está disponível hoje na API, permitindo que os desenvolvedores direcionem Claude para trabalhar em um computador como um humano faz, como mostrado em um Mac no vídeo abaixo.
O recurso Copilot Vision da Microsoft e o aplicativo desktop da OpenAI para ChatGPT mostraram o que suas ferramentas de IA podem fazer com base na visualização da tela do seu computador, e o Google possui capacidades semelhantes em seu aplicativo Gemini em telefones Android. Mas eles não avançaram para a próxima etapa de liberar amplamente ferramentas prontas para clicar e realizar tarefas para você como este. A Rabbit prometeu capacidades semelhantes para seu R1, que ainda não foram entregues.
A Anthropic adverte que o uso de computador ainda é experimental e pode ser “incômodo e propenso a erros”. A empresa afirma: “Estamos lançando o uso de computador cedo para feedback dos desenvolvedores e esperamos que a capacidade melhore rapidamente ao longo do tempo.”
De acordo com os desenvolvedores:
Existem muitas ações que as pessoas realizam rotineiramente com computadores (arrastar, ampliar, etc.) que Claude ainda não pode tentar. A natureza “flipbook” da visão de Claude da tela – tirando capturas de tela e montando-as, em vez de observar um fluxo de vídeo mais granular – significa que ele pode perder ações ou notificações de curta duração.
Além disso, esta versão do Claude aparentemente foi instruída a evitar redes sociais, com “medidas para monitorar quando Claude é solicitado a se envolver em atividades relacionadas a eleições, bem como sistemas para afastar Claude de atividades como gerar e postar conteúdo em redes sociais, registrar domínios da web ou interagir com sites governamentais.”
Enquanto isso, a Anthropic afirma que seu novo modelo Claude 3.5 Sonnet tem melhorias em muitos benchmarks e é oferecido aos clientes pelo mesmo preço e velocidade que seu predecessor:
O atualizado Claude 3.5 Sonnet mostra melhorias abrangentes em benchmarks da indústria, com ganhos particularmente fortes em tarefas de codificação agentic e uso de ferramentas. Em codificação, melhora o desempenho no SWE-bench Verified de 33,4% para 49,0%, pontuando mais alto do que todos os modelos disponíveis publicamente – incluindo modelos de raciocínio como o OpenAI o1-preview e sistemas especializados projetados para codificação agentic. Também melhora o desempenho no TAU-bench, uma tarefa de uso de ferramenta agentic, de 62,6% para 69,2% no domínio de varejo, e de 36,0% para 46,0% no mais desafiador domínio de companhias aéreas.