Esses pesquisadores usaram perguntas do NPR Sunday Puzzle para avaliar modelos de ‘raciocínio’ de IA

Todo domingo, o apresentador da NPR, Will Shortz, o guru de palavras cruzadas do The New York Times, questiona milhares de ouvintes em um segmento de longa data chamado Sunday Puzzle. Embora escrito para ser resolvido sem muito conhecimento prévio, os quebra-cabeças geralmente são desafiadores até mesmo para os competidores mais habilidosos.

É por isso que alguns especialistas acreditam que eles são uma maneira promissora de testar os limites das habilidades de resolução de problemas da IA.

Em um novo estudo, uma equipe de pesquisadores da Wellesley College, Oberlin College, University of Texas em Austin, Northeastern University e da startup Cursor criou um benchmark de IA usando charadas dos episódios do Sunday Puzzle. A equipe afirma que seu teste revela insights surpreendentes, como o fato de que os chamados modelos de raciocínio — como o o1 da OpenAI, entre outros — às vezes “desistem” e fornecem respostas que sabem não ser corretas.

“Queríamos desenvolver um benchmark com problemas que humanos podem entender apenas com conhecimento geral”, disse Arjun Guha, um aluno de graduação em ciência da computação na Northeastern e um dos co-autores do estudo, ao TechCrunch.

A indústria de IA está em uma espécie de dilema de benchmarking no momento. A maioria dos testes comumente usados para avaliar modelos de IA investiga habilidades, como competência em questões de matemática e ciência em nível de doutorado, que não são relevantes para o usuário médio. Enquanto isso, muitos benchmarks — mesmo os lançados relativamente recentemente — estão rapidamente se aproximando do ponto de saturação.

As vantagens de um jogo de quiz de rádio público como o Sunday Puzzle é que ele não testa conhecimento esotérico, e os desafios são formulados de tal forma que os modelos não podem se basear na “memória mecânica” para solucioná-los, explicou Guha.

“Eu acho que o que torna esses problemas difíceis é que é realmente difícil fazer progresso significativo em um problema até que você o resolva — é quando tudo se encaixa de uma vez”, disse Guha. “Isso requer uma combinação de insight e um processo de eliminação.”

Nenhum benchmark é perfeito, é claro. O Sunday Puzzle é centrado nos EUA e só em inglês. E como os quizzes estão disponíveis publicamente, é possível que modelos treinados neles possam “trapacear” de certa forma, embora Guha diga que não viu evidências disso.

“Novas perguntas são lançadas toda semana, e podemos esperar que as últimas perguntas sejam realmente não vistas”, acrescentou. “Pretendemos manter o benchmark fresco e acompanhar como o desempenho dos modelos muda ao longo do tempo.”

No benchmark dos pesquisadores, que consiste em cerca de 600 charadas do Sunday Puzzle, modelos de raciocínio como o o1 e o R1 da DeepSeek superam os demais. Modelos de raciocínio verificam minuciosamente a si mesmos antes de fornecer resultados, o que os ajuda a evitar algumas das armadilhas que normalmente atrapalham os modelos de IA. O trade-off é que modelos de raciocínio demoram um pouco mais para chegar a soluções — tipicamente segundos a minutos mais.

Pelo menos um modelo, o R1 da DeepSeek, fornece soluções que sabe serem erradas para algumas das perguntas do Sunday Puzzle. O R1 afirma verbatim “Eu desisto”, seguido por uma resposta incorreta escolhida aparentemente ao acaso — um comportamento que este humano certamente pode relacionar.

Os modelos fazem outras escolhas bizarras, como dar uma resposta errada apenas para imediatamente retratá-la, tentar extrair uma melhor e falhar novamente. Eles também ficam presos “pensando” para sempre e dão explicações sem sentido para respostas, ou chegam a uma resposta correta imediatamente, mas depois consideram respostas alternativas sem razão óbvia.

“Em problemas difíceis, o R1 literalmente diz que está ficando ‘frustrado'”, disse Guha. “Foi engraçado ver como um modelo emula o que um humano pode dizer. Resta saber como a ‘frustração’ no raciocínio pode afetar a qualidade dos resultados do modelo.”

O modelo que atualmente apresenta o melhor desempenho no benchmark é o o1, com uma pontuação de 59%, seguido pelo recém-lançado o3-mini ajustado para alto “esforço de raciocínio” (47%). (O R1 marcou 35%.) Como próximo passo, os pesquisadores planejam ampliar seus testes para modelos de raciocínio adicionais, que esperam que ajudem a identificar áreas onde esses modelos possam ser aperfeiçoados.

“Você não precisa de um doutorado para ser bom em raciocínio, então deve ser possível projetar benchmarks de raciocínio que não exijam conhecimento em nível de doutorado”, disse Guha. “Um benchmark com acesso mais amplo permite que um conjunto mais amplo de pesquisadores compreenda e analise os resultados, o que pode, por sua vez, levar a melhores soluções no futuro. Além disso, à medida que modelos de última geração são cada vez mais implantados em configurações que afetam a todos, acreditamos que todos devem ser capazes de intuir o que esses modelos são — e o que não são — capazes de fazer.

Fonte

Compartilhe esse conteúdo: