No último dia do ship-mas, a OpenAI apresentou um novo conjunto de modelos de “raciocínio” de fronteira chamados o3 e o3-mini. O Verge foi o primeiro a relatar que um novo modelo de raciocínio chegaria durante este evento.
A empresa não está lançando esses modelos hoje (e admite que os resultados finais podem evoluir com mais treinamento posterior). No entanto, a OpenAI está aceitando inscrições da comunidade de pesquisa para testar esses sistemas antes do lançamento público (que ainda não tem data definida). A OpenAI lançou o o1 (codinome Strawberry) em setembro e está pulando direto para o o3, pulando o o2 para evitar confusões (ou conflitos de marca registrada) com a empresa de telecomunicações britânica chamada O2.
O termo raciocínio se tornou uma palavra da moda comum na indústria de IA ultimamente, mas basicamente significa que a máquina divide instruções em tarefas menores que podem produzir resultados mais fortes. Esses modelos costumam mostrar o trabalho que realizaram para chegar a uma resposta, em vez de apenas fornecer uma resposta final sem explicação.
De acordo com a empresa, o o3 supera os recordes de desempenho anteriores em todas as áreas. Ele supera seu antecessor em testes de codificação (chamados SWE-Bench Verified) em 22,8% e supera o Cientista Chefe da OpenAI em programação competitiva. O modelo quase acertou uma das competições de matemática mais difíceis (chamada AIME 2024), errando uma questão, e alcançou 87,7% em um benchmark para problemas científicos em nível de especialista (chamado GPQA Diamond). Nos desafios mais difíceis de matemática e raciocínio que geralmente confundem a IA, o o3 resolveu 25,2% dos problemas (onde nenhum outro modelo excede 2%).
A OpenAI afirma que o o3 se desempenha melhor do que seus outros modelos de raciocínio em benchmarks de codificação.
A empresa também anunciou novas pesquisas sobre alinhamento deliberativo, que exigem que o modelo de IA processe decisões de segurança passo a passo. Portanto, em vez de apenas dar regras de sim/não ao modelo de IA, esse paradigma exige que ele raciocine ativamente sobre se o pedido de um usuário se encaixa nas políticas de segurança da OpenAI. A empresa afirma que, quando testou isso no o1, ele seguiu muito melhor as diretrizes de segurança do que modelos anteriores, incluindo o GPT-4.