O modelo mais recente da OpenAI, o o3, alcançou um avanço que surpreendeu a comunidade de pesquisa em IA. O o3 obteve uma pontuação sem precedentes de 75,7% no desafiador benchmark ARC-AGI sob condições de computação padrão, com uma versão de alto desempenho alcançando 87,5%.
Embora a conquista no ARC-AGI seja impressionante, ainda não prova que o código para a inteligência geral artificial (AGI) foi decifrado.
O benchmark ARC-AGI é baseado no Abstract Reasoning Corpus, que testa a capacidade de um sistema de IA de se adaptar a novas tarefas e demonstrar inteligência fluida. O ARC é composto por um conjunto de quebra-cabeças visuais que exigem compreensão de conceitos básicos, como objetos, limites e relações espaciais. Enquanto os humanos conseguem resolver quebra-cabeças do ARC com muito poucas demonstrações, os sistemas de IA atuais têm dificuldades com eles. O ARC é considerado uma das medidas mais desafiadoras de IA.
O ARC foi projetado de forma que não pode ser enganado treinando modelos em milhões de exemplos na esperança de cobrir todas as combinações possíveis de quebra-cabeças.
O benchmark é composto por um conjunto de treinamento público que contém 400 exemplos simples. O conjunto de treinamento é complementado por um conjunto de avaliação pública que contém 400 quebra-cabeças mais desafiadores como meio de avaliar a generalização dos sistemas de IA. O Desafio ARC-AGI contém conjuntos de teste privados e semi-privados de 100 quebra-cabeças cada, que não são compartilhados com o público. Eles são usados para avaliar sistemas de IA candidatos sem o risco de vazar os dados para o público e contaminar sistemas futuros com conhecimento prévio. Além disso, a competição impõe limites à quantidade de computação que os participantes podem usar para garantir que os quebra-cabeças não sejam resolvidos por métodos de força bruta.
Um avanço na resolução de tarefas novas
O o1-preview e o o1 marcaram um máximo de 32% no ARC-AGI. Outro método desenvolvido pelo pesquisador Jeremy Berman usou uma abordagem híbrida, combinando Claude 3.5 Sonnet com algoritmos genéticos e um interpretador de código para alcançar 53%, a pontuação mais alta antes do o3.
Em um post de blog, François Chollet, o criador do ARC, descreveu o desempenho do o3 como “um aumento surpreendente e importante nas capacidades da IA, mostrando uma habilidade de adaptação a novas tarefas nunca vista antes nos modelos da família GPT.”
É importante notar que usar mais computação em gerações anteriores de modelos não poderia alcançar esses resultados. Para contextualizar, levou 4 anos para os modelos progredirem de 0% com o GPT-3 em 2020 para apenas 5% com o GPT-4o no início de 2024. Embora não saibamos muito sobre a arquitetura do o3, podemos ter certeza de que não é ordens de magnitude maior que seus predecessores.
Desempenho de diferentes modelos no ARC-AGI
“Isso não é apenas uma melhoria incremental, mas um verdadeiro avanço, marcando uma mudança qualitativa nas capacidades da IA em comparação com as limitações anteriores dos LLMs,” escreveu Chollet. “O o3 é um sistema capaz de se adaptar a tarefas que nunca encontrou antes, aproximando-se do desempenho humano no domínio do ARC-AGI.”
Vale ressaltar que o desempenho do o3 no ARC-AGI vem a um custo elevado. Na configuração de baixa computação, custa ao modelo de $17 a $20 e 33 milhões de tokens para resolver cada quebra-cabeça, enquanto no orçamento de alta computação, o modelo usa cerca de 172X mais computação e bilhões de tokens por problema. No entanto, à medida que os custos de inferência continuam a diminuir, podemos esperar que esses números se tornem mais razoáveis.
Um novo paradigma no raciocínio de LLM
A chave para resolver problemas novos é o que Chollet e outros cientistas se referem como “sintetização de programas”. Um sistema de pensamento deve ser capaz de desenvolver pequenos programas para resolver problemas muito específicos e, em seguida, combinar esses programas para enfrentar problemas mais complexos. Os modelos de linguagem clássicos absorveram muito conhecimento e contêm um rico conjunto de programas internos. Mas eles carecem de composicionalidade, o que os impede de resolver quebra-cabeças que estão além de sua distribuição de treinamento.
Infelizmente, há muito pouca informação sobre como o o3 funciona internamente, e aqui, as opiniões dos cientistas divergem. Chollet especula que o o3 usa um tipo de sintetização de programas que utiliza raciocínio em cadeia (CoT) e um mecanismo de busca combinado com um modelo de recompensa que avalia e refina soluções à medida que o modelo gera tokens. Isso é semelhante ao que modelos de raciocínio de código aberto têm explorado nos últimos meses.
Outros cientistas, como Nathan Lambert do Allen Institute for AI, sugerem que “o o1 e o o3 podem ser na verdade apenas as passagens diretas de um modelo de linguagem.” No dia em que o o3 foi anunciado, Nat McAleese, um pesquisador da OpenAI, postou no X que o o1 era “apenas um LLM treinado com RL. O o3 é alimentado por uma escalabilidade além do o1.”
No mesmo dia, Denny Zhou da equipe de raciocínio do Google DeepMind chamou a combinação de busca e as atuais abordagens de aprendizado por reforço de “rua sem saída.” “A coisa mais bonita sobre o raciocínio de LLM é que o processo de pensamento é gerado de forma autorregressiva, em vez de depender da busca (por exemplo, mcts) sobre o espaço de geração, seja por um modelo bem ajustado ou por um prompt cuidadosamente projetado,” ele postou no X.
Embora os detalhes de como o o3 raciocina possam parecer triviais em comparação com o avanço no ARC-AGI, isso pode muito bem definir a próxima mudança de paradigma no treinamento de LLMs. Atualmente, há um debate sobre se as leis de escalonamento de LLMs por meio de dados de treinamento e computação atingiram um limite. Se a escalabilidade no tempo de teste depende de melhores dados de treinamento ou de diferentes arquiteturas de inferência pode determinar o próximo caminho a seguir.
Não é AGI
O nome ARC-AGI é enganoso e alguns o equipararam a resolver AGI. No entanto, Chollet enfatiza que “o ARC-AGI não é um teste ácido para AGI.”
“Passar no ARC-AGI não equivale a alcançar AGI e, na verdade, não acho que o o3 seja AGI ainda,” ele escreve. “O o3 ainda falha em algumas tarefas muito fáceis, indicando diferenças fundamentais com a inteligência humana.”
Além disso, ele observa que o o3 não pode aprender essas habilidades de forma autônoma e depende de verificadores externos durante a inferência e cadeias de raciocínio rotuladas por humanos durante o treinamento.
Outros cientistas apontaram as falhas dos resultados relatados pela OpenAI. Por exemplo, o modelo foi ajustado no conjunto de treinamento do ARC para alcançar resultados de ponta. “O solucionador não deve precisar de muito ‘treinamento’ específico, seja no domínio em si ou em cada tarefa específica,” escreve a cientista Melanie Mitchell.
Para verificar se esses modelos possuem o tipo de abstração e raciocínio que o benchmark ARC foi criado para medir, Mitchell propõe “ver se esses sistemas podem se adaptar a variantes em tarefas específicas ou a tarefas de raciocínio usando os mesmos conceitos, mas em outros domínios além do ARC.”
Chollet e sua equipe estão atualmente trabalhando em um novo benchmark que é desafiador para o o3, potencialmente reduzindo sua pontuação para menos de 30% mesmo em um orçamento de alta computação. Enquanto isso, os humanos seriam capazes de resolver 95% dos quebra-cabeças sem nenhum treinamento.
“Você saberá que a AGI chegou quando o exercício de criar tarefas que são fáceis para humanos comuns, mas difíceis para a IA se tornar simplesmente impossível,” escreve Chollet.