A Anthropic está lançando um novo modelo de IA de ponta chamado Claude 3.7 Sonnet, que a empresa projetou para “pensar” sobre perguntas pelo tempo que os usuários desejarem.
A Anthropic chama Claude 3.7 Sonnet de primeiro “modelo híbrido de raciocínio em IA” da indústria, porque é um único modelo que pode fornecer tanto respostas em tempo real quanto respostas mais consideradas e “pensadas” para perguntas. Os usuários podem escolher ativar as habilidades de “raciocínio” do modelo de IA, que levam Claude 3.7 Sonnet a “pensar” por um curto ou longo período de tempo.
O modelo representa o esforço mais amplo da Anthropic para simplificar a experiência do usuário em torno de seus produtos de IA. A maioria dos chatbots de IA hoje em dia possui um seletor de modelos intimidante que obriga os usuários a escolher entre várias opções diferentes que variam em custo e capacidade. Laboratórios como a Anthropic prefeririam que você não precisasse pensar sobre isso — idealmente, um modelo faz todo o trabalho.
Claude 3.7 Sonnet será disponibilizado para todos os usuários e desenvolvedores na segunda-feira, disse a Anthropic, mas apenas os usuários que pagam pelos planos de chatbot premium da Anthropic terão acesso aos recursos de raciocínio do modelo. Usuários gratuitos do Claude receberão a versão padrão, não raciocinante, do Claude 3.7 Sonnet, que a Anthropic afirma superar seu modelo de IA anterior, Claude 3.5 Sonnet. (Sim, a empresa pulou um número.)
Claude 3.7 Sonnet custa $3 por milhão de tokens de entrada (o que significa que você pode inserir aproximadamente 750.000 palavras, mais palavras do que toda a série O Senhor dos Anéis, no Claude por $3) e $15 por milhão de tokens de saída. Isso o torna mais caro do que o o3-mini da OpenAI ($1,10 por 1M de tokens de entrada/$4,40 por 1M de tokens de saída) e o R1 da DeepSeek ($0,55 por 1M de tokens de entrada/$2,19 por 1M de tokens de saída), mas lembre-se de que o o3-mini e o R1 são estritamente modelos de raciocínio — não híbridos como o Claude 3.7 Sonnet.
Claude 3.7 Sonnet é o primeiro modelo de IA da Anthropic que pode “raciocinar”, uma técnica que muitos laboratórios de IA têm adotado à medida que os métodos tradicionais de melhoria do desempenho da IA diminuem.
Modelos de raciocínio como o o3-mini, R1, o Gemini 2.0 Flash Thinking do Google e o Grok 3 (Think) da xAI usam mais tempo e poder computacional antes de responder perguntas. Os modelos dividem problemas em etapas menores, o que tende a melhorar a precisão da resposta final. Modelos de raciocínio não estão pensando ou raciocinando como um humano faria, necessariamente, mas seu processo é modelado após a dedução.
Eventualmente, a Anthropic gostaria que Claude decidisse por conta própria quanto tempo deveria “pensar” sobre perguntas, sem precisar que os usuários selecionassem controles com antecedência, disse Diane Penn, líder de produto e pesquisa da Anthropic, em uma entrevista ao TechCrunch.
“Semelhante à forma como os humanos não têm dois cérebros separados para perguntas que podem ser respondidas imediatamente versus aquelas que requerem reflexão”, escreveu a Anthropic em um post no blog compartilhado com o TechCrunch, “consideramos o raciocínio como simplesmente uma das capacidades que um modelo de ponta deve ter, para ser suavemente integrado com outras capacidades, em vez de algo a ser fornecido em um modelo separado.”
A Anthropic afirma que está permitindo que Claude 3.7 Sonnet mostre sua fase interna de planejamento por meio de um “bloco de rascunho visível”. Lee disse ao TechCrunch que os usuários verão todo o processo de pensamento de Claude para a maioria dos prompts, mas que algumas partes podem ser redigidas por motivos de confiança e segurança.
A Anthropic afirma ter otimizado os modos de pensamento de Claude para tarefas do mundo real, como problemas de codificação difíceis ou tarefas agentivas. Desenvolvedores que acessam a API da Anthropic podem controlar o “orçamento” para o pensamento, trocando velocidade e custo por qualidade de resposta.
Em um teste para medir tarefas de codificação do mundo real, SWE-Bench, Claude 3.7 Sonnet foi 62,3% preciso, em comparação com o modelo o3-mini da OpenAI, que obteve 49,3%. Em outro teste para medir a capacidade de um modelo de IA interagir com usuários simulados e APIs externas em um ambiente de varejo, TAU-Bench, Claude 3.7 Sonnet obteve 81,2%, em comparação com o modelo o1 da OpenAI, que obteve 73,5%.
A Anthropic também afirma que Claude 3.7 Sonnet se recusará a responder perguntas com menos frequência do que seus modelos anteriores, afirmando que o modelo é capaz de fazer distinções mais nuançadas entre prompts prejudiciais e benignos. A Anthropic afirma ter reduzido recusa desnecessária em 45% em comparação com o Claude 3.5 Sonnet. Isso ocorre em um momento em que alguns outros laboratórios de IA estão repensando sua abordagem para restringir as respostas de seus chatbots de IA.
Além do Claude 3.7 Sonnet, a Anthropic também está lançando uma ferramenta de codificação agentiva chamada Claude Code. Lançando como uma prévia de pesquisa, a ferramenta permite que desenvolvedores executem tarefas específicas pelo Claude diretamente de seu terminal.
Em uma demonstração, funcionários da Anthropic mostraram como o Claude Code pode analisar um projeto de codificação com um comando simples como “Explique esta estrutura de projeto”. Usando inglês simples no comando, um desenvolvedor pode modificar uma base de código. O Claude Code descreverá suas edições enquanto faz alterações, e até testará um projeto em busca de erros ou enviará para um repositório do GitHub.
O Claude Code estará inicialmente disponível para um número limitado de usuários em uma base de “primeiro a chegar, primeiro a ser servido”, disse um porta-voz da Anthropic ao TechCrunch.
A Anthropic está lançando o Claude 3.7 Sonnet em um momento em que laboratórios de IA estão lançando novos modelos de IA a uma velocidade impressionante. A Anthropic historicamente adotou uma abordagem mais metódica e focada na segurança. Mas desta vez, a empresa está procurando liderar a corrida.
Por quanto tempo é a pergunta. A OpenAI pode estar próxima de lançar seu próprio modelo híbrido de IA; o CEO da empresa, Sam Altman, disse que ele chegará em “meses.”