A OpenAI lançou na sexta-feira um novo modelo de IA de “raciocínio”, o o3-mini, o mais recente da família o da empresa.
A OpenAI apresentou o modelo pela primeira vez em dezembro, juntamente com um sistema mais capaz chamado o3, mas o lançamento ocorre em um momento crucial para a empresa, cujas ambições — e desafios — parecem crescer a cada dia.
A OpenAI está lutando contra a percepção de que está cedendo espaço na corrida de IA para empresas chinesas como a DeepSeek, que a OpenAI alega que pode ter roubado sua propriedade intelectual. No entanto, a criadora do ChatGPT conseguiu conquistar muitos desenvolvedores e está tentando fortalecer seu relacionamento com Washington enquanto simultaneamente persegue um ambicioso projeto de data center. A empresa também está preparando um dos maiores ciclos de financiamento da história das empresas de tecnologia.
O que nos leva ao o3-mini. A OpenAI está promovendo seu novo modelo como “poderoso” e “acessível”.
“O lançamento de hoje marca […] um passo importante para ampliar o acesso à IA avançada em serviço de nossa missão”, disse um porta-voz da OpenAI ao TechCrunch.
Raciocínio mais eficiente
Ao contrário da maioria dos grandes modelos de linguagem, modelos de raciocínio como o o3-mini verificam cuidadosamente os fatos antes de fornecer resultados. Isso os ajuda a evitar algumas das armadilhas que normalmente atrapalham os modelos. Esses modelos de raciocínio levam um pouco mais de tempo para chegar a soluções, mas a compensação é que tendem a ser mais confiáveis — embora não perfeitos — em domínios como a física.
O o3-mini é ajustado para problemas de STEM, especificamente para programação, matemática e ciência. A OpenAI afirma que o modelo está em grande parte no mesmo nível da família o1, o1 e o1-mini em termos de capacidades, mas funciona mais rápido e custa menos.
A empresa afirmou que testadores externos preferiram as respostas do o3-mini em relação às do o1-mini mais da metade das vezes. O o3-mini aparentemente também cometeu 39% menos “erros graves” em “perguntas difíceis do mundo real” em testes A/B em comparação com o o1-mini, e produziu respostas “mais claras” enquanto entregava respostas cerca de 24% mais rápido.
O o3-mini estará disponível para todos os usuários via ChatGPT a partir de sexta-feira, mas usuários que pagam pelos planos ChatGPT Plus e Team terão um limite de 150 consultas por dia, enquanto assinantes do ChatGPT Pro terão acesso ilimitado. A OpenAI disse que o o3-mini chegará aos clientes do ChatGPT Enterprise e ChatGPT Edu em uma semana (sem informações sobre o ChatGPT Gov).
Usuários com planos premium do ChatGPT podem selecionar o o3-mini usando o menu suspenso. Usuários gratuitos podem clicar ou tocar no novo botão “Raciocinar” na barra de chat, ou fazer o ChatGPT “regenerar” uma resposta.
A partir de sexta-feira, o o3-mini também estará disponível via API da OpenAI para desenvolvedores selecionados, mas inicialmente não terá suporte para análise de imagens. Os desenvolvedores podem selecionar o nível de “esforço de raciocínio” (baixo, médio ou alto) para fazer o o3-mini “pensar mais” com base em seu caso de uso e necessidades de latência.
O o3-mini está precificado em $1,10 por milhão de tokens de entrada em cache e $4,40 por milhão de tokens de saída, onde um milhão de tokens equivale a aproximadamente 750.000 palavras. Isso é 63% mais barato que o o1-mini e competitivo com os preços do modelo de raciocínio R1 da DeepSeek. A DeepSeek cobra $0,14 por milhão de tokens de entrada em cache e $2,19 por milhão de tokens de saída para acesso ao R1 através de sua API.
No ChatGPT, o o3-mini está configurado para esforço de raciocínio médio, que a OpenAI diz proporcionar “um equilíbrio entre velocidade e precisão”. Usuários pagos terão a opção de selecionar “o3-mini-alto” no seletor de modelo, que fornecerá o que a OpenAI chama de “inteligência superior” em troca de respostas mais lentas.
Independentemente de qual versão do o3-mini os usuários do ChatGPT escolham, o modelo funcionará com pesquisa para encontrar respostas atualizadas com links para fontes relevantes da web. A OpenAI alerta que a funcionalidade é um “protótipo” enquanto trabalha para integrar a pesquisa em seus modelos de raciocínio.
“Enquanto o o1 continua sendo nosso modelo de raciocínio de conhecimento geral mais amplo, o o3-mini fornece uma alternativa especializada para domínios técnicos que exigem precisão e velocidade”, escreveu a OpenAI em um post no blog na sexta-feira. “O lançamento do o3-mini marca mais um passo na missão da OpenAI de ultrapassar os limites da inteligência econômica.”
Caveats abundam
O o3-mini não é o modelo mais poderoso da OpenAI até hoje, nem ultrapassa o modelo de raciocínio R1 da DeepSeek em todos os benchmarks.
O o3-mini supera o R1 no AIME 2024, um teste que mede como os modelos entendem e respondem a instruções complexas — mas apenas com alto esforço de raciocínio. Ele também supera o R1 no teste focado em programação SWE-bench Verified (por 0,1 ponto), mas novamente, apenas com alto esforço de raciocínio. Com baixo esforço de raciocínio, o o3-mini fica atrás do R1 no GPQA Diamond, que testa modelos com perguntas de física, biologia e química de nível de doutorado.
Para ser justo, o o3-mini responde a muitas consultas a um custo e latência competitivos. No post, a OpenAI compara seu desempenho com a família o1:
“Com baixo esforço de raciocínio, o o3-mini alcança desempenho comparável ao o1-mini, enquanto com esforço médio, o o3-mini alcança desempenho comparável ao o1”, escreve a OpenAI. “O o3-mini com esforço de raciocínio médio iguala o desempenho do o1 em matemática, codificação e ciência enquanto entrega respostas mais rápidas. Enquanto isso, com alto esforço de raciocínio, o o3-mini supera tanto o o1-mini quanto o o1.”
Vale ressaltar que a vantagem de desempenho do o3-mini sobre o o1 é pequena em algumas áreas. No AIME 2024, o o3-mini supera o o1 por apenas 0,3 pontos percentuais quando configurado para alto esforço de raciocínio. E no GPQA Diamond, o o3-mini não supera a pontuação do o1 mesmo com alto esforço de raciocínio.
A OpenAI afirma que o o3-mini é tão “seguro” ou mais seguro que a família o1, no entanto, graças aos esforços de red-team e sua metodologia de “alinhamento deliberativo”, que faz com que os modelos “pensem” sobre a política de segurança da OpenAI enquanto respondem a consultas. Segundo a empresa, o o3-mini “supera significativamente” um dos modelos mais importantes da OpenAI, o GPT-4o, em “avaliações desafiadoras de segurança e jailbreak.”