Modelos de inteligência artificial desenvolvidos pela equipe DeepMind do Google e pela OpenAI têm uma nova conquista que podem adicionar à sua lista de realizações: derrotaram alguns estudantes do ensino médio em matemática. Ambas as empresas afirmaram ter conquistado uma medalha de ouro na Olimpíada Internacional de Matemática (IMO) deste ano, uma das competições mais difíceis para estudantes do ensino médio que buscam provar sua habilidade matemática.
A Olimpíada convida os melhores estudantes de todo o mundo a participar de um exame que requer que eles resolvam uma série de problemas matemáticos complexos e de múltiplas etapas. Os estudantes fazem dois exames de quatro horas e meia ao longo de dois dias, com a tarefa de resolver um total de seis questões, com valores de pontos atribuídos por completar diferentes partes dos problemas. Os modelos da DeepMind e da OpenAI resolveram cinco das seis respostas perfeitamente, marcando um total de 35 dos 42 pontos possíveis, o que foi suficiente para o ouro. Um total de 67 participantes humanos dos 630 que participaram também levaram para casa a honra de ouro.
Há um pequeno detalhe que não tem muito a ver com os resultados, apenas o comportamento das empresas. A DeepMind foi convidada a participar da IMO e anunciou seu ouro na segunda-feira em um post no blog, após a divulgação dos resultados oficiais para os participantes estudantes. De acordo com a Implicator.ai, a OpenAI na verdade não entrou na IMO. Em vez disso, pegou os problemas, que são tornados públicos para que outros possam tentar resolvê-los, e os resolveu por conta própria. A OpenAI anunciou que teve um desempenho de nível ouro, o que não pode ser verificado pela IMO porque não participou. Além disso, a empresa anunciou sua pontuação no final de semana, em vez de esperar até segunda-feira (quando as pontuações oficiais são publicadas), contra os desejos da IMO, que pediu às empresas que não roubassem a cena dos estudantes.
Os modelos usados para resolver esses problemas participaram do exame da mesma forma que os estudantes. Eles tiveram 4,5 horas para cada exame e não puderam usar ferramentas externas ou acessar a internet. Notavelmente, parece que ambas as empresas usaram IA de propósito geral em vez de modelos especializados, que anteriormente se saíram muito melhor do que os modelos que tentam fazer tudo.
Um fato notável sobre as reivindicações dessas empresas ao primeiro lugar: Nenhum dos modelos que conquistou ouro (ou, você sabe, um ouro auto-administrado) está disponível publicamente. Na verdade, modelos públicos se saíram muito mal na tarefa. Pesquisadores rodaram as questões através do Gemini 2.5 Pro, Grok-4 e OpenAI o4, e nenhum deles conseguiu marcar mais de 13 pontos, o que está abaixo dos 19 necessários para levar para casa uma medalha de bronze.
Ainda há muito ceticismo sobre os resultados, e o fato de que modelos publicamente disponíveis se saíram tão mal sugere que há uma lacuna nas ferramentas que temos acesso e o que um modelo mais ajustado pode fazer, o que deve resultar em questões sobre por que esses modelos mais inteligentes não podem ser escalados ou tornados amplamente disponíveis. Mas ainda há dois pontos importantes a serem destacados aqui: Modelos de laboratório estão melhorando na resolução de problemas de raciocínio, e a OpenAI é administrada por um grupo de pessoas que não conseguiram esperar para roubar a glória de alguns adolescentes.
