Como os modelos de aprendizado de máquina fazem o que fazem? E eles realmente estão “pensando” ou “raciocinando” da maneira como entendemos essas coisas? Esta é uma questão filosófica tanto quanto prática, mas um novo artigo que está circulando nesta sexta-feira sugere que a resposta é, pelo menos por enquanto, um bastante claro “não”.
Um grupo de cientistas de pesquisa em IA da Apple lançou seu artigo, “Entendendo as limitações do raciocínio matemático em grandes modelos de linguagem”, para comentários gerais na quinta-feira. Embora os conceitos mais profundos de aprendizado simbólico e reprodução de padrões sejam um pouco complicados, o conceito básico de sua pesquisa é muito fácil de entender.
Vamos dizer que eu perguntei a você para resolver um problema matemático simples como este:
Oliver colhe 44 kiwis na sexta-feira. Então ele colhe 58 kiwis no sábado. No domingo, ele colhe o dobro do número de kiwis que ele colheu na sexta-feira. Quantos kiwis Oliver tem?
Obviamente, a resposta é 44 + 58 + (44 * 2) = 190. Embora os grandes modelos de linguagem sejam realmente instáveis em aritmética, eles podem resolver algo assim de maneira bastante confiável. Mas e se eu adicionar uma informação extra aleatória, como esta:
Oliver colhe 44 kiwis na sexta-feira. Então ele colhe 58 kiwis no sábado. No domingo, ele colhe o dobro do número de kiwis que ele colheu na sexta-feira, mas cinco deles eram um pouco menores que a média. Quantos kiwis Oliver tem?
É o mesmo problema matemático, certo? E, claro, até uma criança sabe que mesmo um kiwi pequeno ainda é um kiwi. Mas, como se vê, esse ponto de dados extra confunde até os LLMs mais avançados. Aqui está a interpretação do GPT-o1-mini:
… no domingo, 5 desses kiwis eram menores que a média. Precisamos subtraí-los do total de domingo: 88 (kiwis de domingo) – 5 (kiwis menores) = 83 kiwis.
Este é apenas um exemplo simples de centenas de perguntas que os pesquisadores modificaram levemente, mas quase todas levaram a enormes quedas nas taxas de sucesso dos modelos que tentaram respondê-las.
Agora, por que isso deveria acontecer? Por que um modelo que entende o problema ficaria tão facilmente confundido por um detalhe aleatório e irrelevante? Os pesquisadores propõem que esse modo de falha confiável significa que os modelos não realmente entendem o problema. Seus dados de treinamento permitem que eles respondam com a resposta correta em algumas situações, mas assim que o menor “raciocínio” real é necessário, como se contar kiwis pequenos, eles começam a produzir resultados estranhos e não intuitivos.
Como os pesquisadores colocaram em seu artigo:
[W] nós investigamos a fragilidade do raciocínio matemático nesses modelos e demonstramos que seu desempenho deteriora significativamente à medida que o número de cláusulas em uma pergunta aumenta. Hipotetizamos que essa queda se deve ao fato de que os atuais LLMs não são capazes de raciocínio lógico genuíno; em vez disso, eles tentam replicar os passos de raciocínio observados em seus dados de treinamento.
Essa observação é consistente com outras qualidades frequentemente atribuídas aos LLMs devido à sua facilidade com a linguagem. Quando, estatisticamente, a frase “Eu te amo” é seguida por “Eu também te amo”, o LLM pode facilmente repetir isso — mas isso não significa que ele ama você. E, embora consiga seguir cadeias complexas de raciocínio que tenha sido exposto antes, o fato de que essa cadeia pode ser quebrada por até mesmo desvios superficiais sugere que ele não raciocina tanto quanto replica padrões que observou em seus dados de treinamento.
Mehrdad Farajtabar, um dos co-autores, resume o artigo de forma muito clara nesta thread no X.
Um pesquisador da OpenAI, enquanto elogiava o trabalho de Mirzadeh et al, contestou suas conclusões, afirmando que resultados corretos poderiam provavelmente ser alcançados em todos esses casos de falha com um pouco de engenharia de prompt. Farajtabar (respondendo com a típica e admirável cordialidade que os pesquisadores tendem a empregar) observou que, embora melhores prompts possam funcionar para desvios simples, o modelo pode exigir exponencialmente mais dados contextuais para contrabalançar distrações complexas — aquelas que, novamente, uma criança poderia apontar trivialmente.
Isso significa que os LLMs não raciocinam? Talvez. Que eles não possam raciocinar? Ninguém sabe. Esses não são conceitos bem definidos, e as perguntas tendem a aparecer na vanguarda da pesquisa em IA, onde o estado da arte muda diariamente. Talvez os LLMs “raciocinem”, mas de uma maneira que ainda não reconhecemos ou sabemos como controlar.
Isso torna-se uma fronteira fascinante na pesquisa, mas também é um alerta cauteloso sobre como a IA está sendo vendida. Pode realmente fazer as coisas que afirmam, e se sim, como? À medida que a IA se torna uma ferramenta de software do dia a dia, esse tipo de questão não é mais acadêmico.