Google DeepMind anunciou na segunda-feira que uma versão avançada de seu modelo de inteligência artificial Gemini alcançou oficialmente um desempenho de nível de medalha de ouro na Olimpíada Internacional de Matemática, resolvendo cinco de seis problemas excepcionalmente difíceis e recebendo reconhecimento como o primeiro sistema de IA a receber classificação oficial de nível de ouro dos organizadores da competição.
A vitória avança o campo do raciocínio em IA e coloca o Google à frente na crescente batalha entre gigantes da tecnologia que constroem inteligência artificial de próxima geração. Mais importante ainda, demonstra que a IA agora pode enfrentar problemas matemáticos complexos usando compreensão de linguagem natural, em vez de exigir linguagens de programação especializadas.
“Os resultados oficiais estão disponíveis – Gemini alcançou o nível de medalha de ouro na Olimpíada Internacional de Matemática!” escreveu Demis Hassabis, CEO da Google DeepMind, na plataforma de mídia social X na manhã de segunda-feira. “Uma versão avançada conseguiu resolver 5 dos 6 problemas. Progresso incrível.”
A Olimpíada Internacional de Matemática, realizada anualmente desde 1959, é amplamente considerada a competição de matemática mais prestigiosa do mundo para estudantes pré-universitários. Cada país participante envia seis jovens matemáticos de elite para competir na resolução de seis problemas desafiadores que abrangem álgebra, combinatória, geometria e teoria dos números. Apenas cerca de 8% dos participantes humanos normalmente ganham medalhas de ouro.
O sucesso mais recente do Google ultrapassa seu desempenho em 2024, quando os sistemas combinados AlphaProof e AlphaGeometry conquistaram o status de medalha de prata ao resolver quatro dos seis problemas. Esse sistema anterior exigia que especialistas humanos primeiro traduzissem problemas em linguagem natural para linguagens de programação específicas do domínio e, em seguida, interpretassem a saída matemática da IA.
A quebra de paradigma deste ano veio através do Gemini Deep Think, um sistema de raciocínio aprimorado que emprega o que os pesquisadores chamam de “pensamento paralelo”. Ao contrário dos modelos tradicionais de IA que seguem uma única cadeia de raciocínio, o Deep Think explora simultaneamente múltiplas soluções possíveis antes de chegar a uma resposta final.
“Nosso modelo operou de ponta a ponta em linguagem natural, produzindo provas matemáticas rigorosas diretamente das descrições oficiais dos problemas,” explicou Hassabis em uma publicação de acompanhamento na plataforma de mídia social X, enfatizando que o sistema completou seu trabalho dentro do limite de tempo padrão de 4,5 horas da competição.
O modelo alcançou 35 de um total de 42 pontos, ultrapassando confortavelmente o limite de medalha de ouro. De acordo com o presidente da IMO, Prof. Dr. Gregor Dolinar, as soluções foram “astonishing em muitos aspectos” e consideradas “claras, precisas e a maioria delas fáceis de seguir” pelos avaliadores da competição.
O anúncio vem em meio a uma crescente tensão na indústria de IA sobre práticas competitivas e transparência. A abordagem medida da Google DeepMind ao divulgar seus resultados foi elogiada pela comunidade de IA, especialmente em contraste com a forma como a concorrente OpenAI lidou com conquistas semelhantes.
“Não anunciamos na sexta-feira porque respeitamos o pedido original da diretoria da IMO para que todos os laboratórios de IA compartilhassem seus resultados apenas após os resultados oficiais terem sido verificados por especialistas independentes e os alunos terem recebido a aclamação que mereciam,” escreveu Hassabis, parecendo referir-se ao anúncio anterior da OpenAI sobre seu próprio desempenho na olimpíada.
Usuários de mídias sociais foram rápidos em notar a distinção. “Você vê? A OpenAI ignorou o pedido da IMO. Vergonha. Sem classe. Desrespeito total,” escreveu um usuário. “A Google DeepMind agiu com integridade, alinhada com a humanidade.”
A crítica decorre da decisão da OpenAI de anunciar seus próprios resultados da Olimpíada matemática sem participar do processo de avaliação oficial da IMO. Em vez disso, a OpenAI teve um painel de ex-participantes da IMO que avaliou o desempenho de sua IA, uma abordagem que alguns na comunidade consideram carecer de credibilidade.
O sucesso da Google DeepMind parece decorrer de técnicas de treinamento inovadoras que vão além das abordagens tradicionais. A equipe usou métodos avançados de aprendizado por reforço projetados para aproveitar o raciocínio de múltiplas etapas, resolução de problemas e dados de prova de teoremas. O modelo também teve acesso a uma coleção curada de soluções matemáticas de alta qualidade e recebeu orientações específicas sobre como abordar problemas no estilo da IMO.
A conquista técnica impressionou pesquisadores de IA que notaram suas implicações mais amplas. “Não se trata apenas de resolver matemática… mas de entender problemas descritos em linguagem e aplicar lógica abstrata a casos novos,” escreveu o observador de IA Elyss Wren. “Isso não é memória mecânica – é cognição emergente em movimento.”
O modelo demonstrou raciocínio particularmente impressionante em um problema onde muitos competidores humanos aplicaram conceitos matemáticos de nível de pós-graduação. De acordo com o pesquisador da DeepMind, Junehyuk Jung, Gemini “fez uma observação brilhante e usou apenas teoria dos números elementar para criar uma prova autônoma,” encontrando uma solução mais elegante do que muitos participantes humanos.
A vitória na olimpíada matemática vai além dos direitos de bragging competitivos. O desempenho do Gemini demonstra que os sistemas de IA agora podem igualar o raciocínio em nível humano em tarefas complexas que exigem criatividade, pensamento abstrato e a capacidade de sintetizar insights de vários domínios.
“Este é um avanço significativo em relação ao resultado inovador do ano passado,” observou a equipe da DeepMind em seu anúncio técnico. A progressão de exigir linguagens formais especializadas para operar inteiramente em linguagem natural sugere que os sistemas de IA estão se tornando mais intuitivos e acessíveis.
Para as empresas, esse desenvolvimento sinaliza que a IA pode em breve enfrentar problemas analíticos complexos em várias indústrias sem exigir programação especializada ou expertise no domínio. A capacidade de raciocinar através de desafios intrincados usando linguagem cotidiana poderia democratizar capacidades analíticas sofisticadas em organizações.
No entanto, persistem questões sobre se essas capacidades de raciocínio se traduzirão efetivamente em desafios do mundo real mais complexos. A olimpíada matemática fornece problemas bem definidos com critérios de sucesso claros — muito diferentes das decisões ambíguas e multifacetadas que definem a maioria das empreitadas empresariais e científicas.
A Google DeepMind planeja retornar à competição do próximo ano “em busca de um resultado perfeito.” A empresa acredita que sistemas de IA que combinam fluência em linguagem natural com raciocínio rigoroso “se tornarão ferramentas inestimáveis para matemáticos, cientistas, engenheiros e pesquisadores, ajudando-nos a avançar o conhecimento humano no caminho para a AGI.”
Mas talvez o detalhe mais revelador tenha surgido da competição em si: quando confrontado com o problema mais difícil do concurso, o Gemini partiu de uma hipótese incorreta e nunca se recuperou. Apenas cinco alunos humanos resolveram corretamente esse problema. No final, parece que até mesmo a IA vencedora da medalha de ouro ainda tem algo a aprender com adolescentes matemáticos.
