Os novos modelos de IA GPT-4.1 da OpenAI focam em codificação

A OpenAI lançou na segunda-feira uma nova família de modelos chamada GPT-4.1. Sim, “4.1” — como se a nomenclatura da empresa já não fosse confusa o suficiente.

Existem GPT-4.1, GPT-4.1 mini e GPT-4.1 nano, todos os quais a OpenAI afirma “se destacam” em codificação e seguimento de instruções. Disponíveis através da API da OpenAI, mas não no ChatGPT, os modelos multimodais têm uma janela de contexto de 1 milhão de tokens, o que significa que podem processar aproximadamente 750.000 palavras de uma só vez (mais do que “Guerra e Paz”).

O GPT-4.1 chega em um momento em que rivais da OpenAI, como Google e Anthropic, intensificam esforços para construir modelos de programação sofisticados. O Gemini 2.5 Pro, recentemente lançado pelo Google, que também possui uma janela de contexto de 1 milhão de tokens, classifica-se bem em benchmarks populares de codificação. O mesmo acontece com o Claude 3.7 Sonnet da Anthropic e a versão atualizada V3 da startup chinesa DeepSeek.

É o objetivo de muitas gigantes da tecnologia, incluindo a OpenAI, treinar modelos de IA de codificação capazes de realizar tarefas complexas de engenharia de software. A grande ambição da empresa é criar um “engenheiro de software agente”, como disse a CFO Sarah Friar durante uma cúpula de tecnologia em Londres no mês passado. A empresa afirma que seus futuros modelos serão capazes de programar aplicativos inteiros de ponta a ponta, lidando com aspectos como garantia de qualidade, teste de bugs e redação de documentação.

O GPT-4.1 é um passo nessa direção.

“Otimizar o GPT-4.1 para uso no mundo real com base em feedback direto para melhorar em áreas que os desenvolvedores mais se preocupam: codificação frontend, fazendo menos edições desnecessárias, seguindo formatos de forma confiável, aderindo à estrutura e ordem das respostas, uso consistente de ferramentas e mais”, disse um porta-voz da OpenAI ao TechCrunch por e-mail. “Essas melhorias permitem que os desenvolvedores construam agentes que são consideravelmente melhores em tarefas de engenharia de software do mundo real.”

A OpenAI afirma que o modelo completo GPT-4.1 supera seus modelos GPT-4o e GPT-4o mini em benchmarks de codificação, incluindo o SWE-bench. O GPT-4.1 mini e nano são considerados mais eficientes e rápidos, embora à custa de alguma precisão, com a OpenAI afirmando que o GPT-4.1 nano é seu modelo mais rápido — e mais barato — de todos os tempos.

O GPT-4.1 custa $2 por milhão de tokens de entrada e $8 por milhão de tokens de saída. O GPT-4.1 mini custa $0.40/M de tokens de entrada e $1.60/M de tokens de saída, e o GPT-4.1 nano custa $0.10/M de tokens de entrada e $0.40/M de tokens de saída.

De acordo com os testes internos da OpenAI, o GPT-4.1, que pode gerar mais tokens de uma vez do que o GPT-4o (32.768 contra 16.384), obteve entre 52% e 54,6% no SWE-bench Verified, um subconjunto validado por humanos do SWE-bench. (A OpenAI observou em um post no blog que algumas soluções para problemas do SWE-bench Verified não puderam ser executadas em sua infraestrutura, daí a faixa de pontuações.) Esses números estão ligeiramente abaixo das pontuações relatadas pelo Google e pela Anthropic para o Gemini 2.5 Pro (63,8%) e Claude 3.7 Sonnet (62,3%), respectivamente, no mesmo benchmark.

Em uma avaliação separada, a OpenAI testou o GPT-4.1 usando o Video-MME, que é projetado para medir a capacidade de um modelo de “entender” conteúdo em vídeos. O GPT-4.1 alcançou uma precisão de 72% na categoria de vídeo “longo, sem legendas”, afirma a OpenAI.

Embora o GPT-4.1 tenha pontuações razoavelmente boas em benchmarks e tenha um “ponto de corte de conhecimento” mais recente, dando-lhe uma melhor referência para eventos atuais (até junho de 2024), é importante ter em mente que mesmo alguns dos melhores modelos de hoje lutam com tarefas que não dificultariam especialistas. Por exemplo, muitos estudos mostraram que modelos geradores de código frequentemente falham em corrigir e até introduzir vulnerabilidades de segurança e bugs.

A OpenAI também reconhece que o GPT-4.1 se torna menos confiável (ou seja, mais propenso a cometer erros) quanto mais tokens de entrada ele precisa lidar. Em um dos testes da própria empresa, o OpenAI-MRCR, a precisão do modelo diminuiu de cerca de 84% com 8.000 tokens para 50% com 1.024 tokens. O GPT-4.1 também tende a ser mais “literal” do que o GPT-4o, diz a empresa, às vezes exigindo prompts mais específicos e explícitos.

Fonte

Compartilhe esse conteúdo: