OpenAI apresenta o GPT-4.5 ‘Orion’, seu maior modelo de IA até agora

A OpenAI anunciou na quinta-feira que está lançando o GPT-4.5, o modelo de IA muito aguardado com o codinome Orion. O GPT-4.5 é o maior modelo da OpenAI até hoje, treinado usando mais poder computacional e dados do que qualquer um dos lançamentos anteriores da empresa.

Apesar de seu tamanho, a OpenAI observa em um documento técnico que não considera o GPT-4.5 um modelo de fronteira.

Os assinantes do ChatGPT Pro, o plano de $200 por mês da OpenAI, terão acesso ao GPT-4.5 no ChatGPT a partir de quinta-feira como parte de uma prévia de pesquisa. Desenvolvedores em níveis pagos da API da OpenAI também poderão usar o GPT-4.5 a partir de hoje. Quanto aos outros usuários do ChatGPT, os clientes inscritos no ChatGPT Plus e ChatGPT Team devem obter o modelo na próxima semana, disse um porta-voz da OpenAI ao TechCrunch.

A indústria segurou a respiração coletivamente por Orion, que alguns consideram um indicador da viabilidade das abordagens tradicionais de treinamento de IA. O GPT-4.5 foi desenvolvido usando a mesma técnica chave – aumentando drasticamente a quantidade de poder computacional e dados durante uma fase de “pré-treinamento” chamada aprendizado não supervisionado – que a OpenAI usou para desenvolver o GPT-4, GPT-3, GPT-2 e GPT-1.

Em cada geração de GPT antes do GPT-4.5, aumentar a escala levou a saltos massivos de desempenho em domínios como matemática, escrita e codificação. De fato, a OpenAI afirma que o aumento de tamanho do GPT-4.5 lhe deu “um conhecimento de mundo mais profundo” e “maior inteligência emocional”. No entanto, há sinais de que os ganhos de escalonamento de dados e computação estão começando a se nivelar. Em vários benchmarks de IA, o GPT-4.5 fica aquém de novos modelos de “raciocínio” de empresas de IA chinesas como DeepSeek, Anthropic e da própria OpenAI.

O GPT-4.5 também é muito caro para operar, admite a OpenAI – tão caro que a empresa diz que está avaliando se deve continuar a oferecer o GPT-4.5 em sua API a longo prazo.

“Estamos compartilhando o GPT-4.5 como uma prévia de pesquisa para entender melhor seus pontos fortes e limitações”, disse a OpenAI em um post no blog compartilhado com o TechCrunch. “Ainda estamos explorando do que ele é capaz e estamos ansiosos para ver como as pessoas o utilizam de maneiras que talvez não esperássemos.”

Desempenho misto

A OpenAI enfatiza que o GPT-4.5 não é destinado a ser um substituto direto do GPT-4o, o modelo de trabalho da empresa que alimenta a maior parte de sua API e ChatGPT. Embora o GPT-4.5 suporte recursos como uploads de arquivos e imagens e a ferramenta de canvas do ChatGPT, atualmente carece de capacidades como suporte para o modo de voz realista de duas vias do ChatGPT.

No lado positivo, o GPT-4.5 é mais performático do que o GPT-4o – e muitos outros modelos além disso.

No benchmark SimpleQA da OpenAI, que testa modelos de IA em perguntas factuais diretas, o GPT-4.5 supera o GPT-4o e os modelos de raciocínio da OpenAI, o1 e o3-mini, em termos de precisão. De acordo com a OpenAI, o GPT-4.5 alucina com menos frequência do que a maioria dos modelos, o que em teoria significa que deve ser menos provável que invente informações.

A OpenAI não listou um de seus modelos de raciocínio de melhor desempenho, a pesquisa profunda, no SimpleQA. Um porta-voz da OpenAI disse ao TechCrunch que não divulgou publicamente o desempenho da pesquisa profunda nesse benchmark e afirmou que não é uma comparação relevante. Notavelmente, o modelo Deep Research da startup de IA Perplexity, que apresenta desempenho semelhante em outros benchmarks ao da pesquisa profunda da OpenAI, supera o GPT-4.5 neste teste de precisão factual.

Em um subconjunto de problemas de codificação, o benchmark SWE-Bench Verified, o GPT-4.5 corresponde aproximadamente ao desempenho do GPT-4o e o3-mini, mas fica aquém da pesquisa profunda da OpenAI e do Claude 3.7 Sonnet da Anthropic. Em outro teste de codificação, o benchmark SWE-Lancer da OpenAI, que mede a capacidade de um modelo de IA de desenvolver recursos completos de software, o GPT-4.5 supera o GPT-4o e o3-mini, mas fica aquém da pesquisa profunda.

O benchmark SWE-Bench verificado da OpenAI

O benchmark SWe-Lancer Diamond da OpenAI

O GPT-4.5 não atinge o desempenho dos principais modelos de raciocínio de IA, como o o3-mini, R1 da DeepSeek e Claude 3.7 Sonnet (tecnicamente um modelo híbrido) em benchmarks acadêmicos difíceis como AIME e GPQA. Mas o GPT-4.5 iguala ou supera os principais modelos não-raciocínio nesses mesmos testes, sugerindo que o modelo se sai bem em problemas relacionados a matemática e ciências.

A OpenAI também afirma que o GPT-4.5 é qualitativamente superior a outros modelos em áreas que os benchmarks não capturam bem, como a capacidade de entender a intenção humana. O GPT-4.5 responde de maneira mais calorosa e natural, diz a OpenAI, e se sai bem em tarefas criativas, como escrita e design.

Em um teste informal, a OpenAI pediu ao GPT-4.5 e a outros dois modelos, GPT-4o e o3-mini, para criar um unicórnio em SVG, um formato para exibir gráficos com base em fórmulas matemáticas e código. O GPT-4.5 foi o único modelo de IA a criar algo que se assemelhasse a um unicórnio.

esquerda: GPT-4.5, Meio: GPT-4o, DIREITA: o3-mini

Em outro teste, a OpenAI pediu ao GPT-4.5 e aos outros dois modelos para responder ao prompt: “Estou passando por um momento difícil após falhar em um teste.” O GPT-4o e o3-mini deram informações úteis, mas a resposta do GPT-4.5 foi a mais socialmente apropriada.

“[N]ós esperamos obter uma imagem mais completa das capacidades do GPT-4.5 através deste lançamento”, escreveu a OpenAI no post do blog, “porque reconhecemos que benchmarks acadêmicos nem sempre refletem a utilidade no mundo real.”

A inteligência emocional do GPT-4.5 em ação

Desafios nas leis de escalonamento

A OpenAI afirma que o GPT-4.5 está “na fronteira do que é possível em aprendizado não supervisionado.” Isso pode ser verdade, mas as limitações do modelo também parecem confirmar a especulação de especialistas de que as “leis de escalonamento” do pré-treinamento não continuarão a se sustentar.

O cofundador da OpenAI e ex-cientista chefe Ilya Sutskever disse em dezembro que “alcançamos o pico de dados” e que “o pré-treinamento como o conhecemos terminará inquestionavelmente.” Seus comentários ecoaram preocupações que investidores, fundadores e pesquisadores de IA compartilharam com o TechCrunch para uma matéria em novembro.

Em resposta aos obstáculos do pré-treinamento, a indústria – incluindo a OpenAI – adotou modelos de raciocínio, que levam mais tempo do que modelos não-raciocínio para realizar tarefas, mas tendem a ser mais consistentes. Ao aumentar a quantidade de tempo e poder computacional que os modelos de raciocínio de IA usam para “pensar” sobre problemas, os laboratórios de IA estão confiantes de que podem melhorar significativamente as capacidades dos modelos.

A OpenAI planeja eventualmente combinar sua série de modelos GPT com sua série de raciocínio o, começando com o GPT-5 ainda este ano. O GPT-4.5, que supostamente foi incrivelmente caro para treinar, adiado várias vezes e não atendeu às expectativas internas, pode não conquistar a coroa dos benchmarks de IA por conta própria. Mas a OpenAI provavelmente o vê como um degrau em direção a algo muito mais poderoso.

Fonte

Compartilhe esse conteúdo: