Modelos de inteligência artificial que passam mais tempo ‘pensando’ sobre problemas nem sempre apresentam um desempenho melhor – e, em alguns casos, pioram significativamente, de acordo com uma nova pesquisa da Anthropic que desafia uma suposição central que orienta os últimos esforços de escalonamento da indústria de IA.
O estudo, liderado pelo bolsista de segurança de IA da Anthropic, Aryo Pradipta Gema, e outros pesquisadores da empresa, identifica o que eles chamam de ‘escalonamento inverso em computação em tempo de teste’, onde a extensão do tempo de raciocínio dos grandes modelos de linguagem na verdade deteriora seu desempenho em vários tipos de tarefas. As descobertas podem ter implicações significativas para as empresas que implantam sistemas de IA que dependem de capacidades de raciocínio estendidas.
‘Construímos tarefas de avaliação onde a extensão do comprimento do raciocínio dos Modelos de Raciocínio Grandes (LRMs) deteriora o desempenho, exibindo uma relação de escalonamento inverso entre computação em tempo de teste e precisão’, escrevem os pesquisadores da Anthropic em seu artigo publicado na terça-feira.
A equipe de pesquisa, incluindo Ethan Perez, Yanda Chen e Joe Benton da Anthropic, juntamente com colaboradores acadêmicos, testou modelos em quatro categorias de tarefas: problemas simples de contagem com distrações, tarefas de regressão com características enganosas, quebra-cabeças de dedução complexos e cenários envolvendo preocupações de segurança da IA.
O estudo revela padrões de falha distintos em sistemas de IA importantes. Os modelos Claude ‘se tornam cada vez mais distraídos por informações irrelevantes’ à medida que raciocinam por mais tempo, enquanto os modelos da série o da OpenAI ‘resistem a distrações, mas se ajustam excessivamente às formulações dos problemas’. Em tarefas de regressão, ‘o raciocínio estendido faz com que os modelos mudem de priors razoáveis para correlações espúrias’, embora a apresentação de exemplos corrija em grande parte esse comportamento.
Talvez o mais preocupante para os usuários empresariais, todos os modelos mostraram ‘degradação de desempenho com raciocínio estendido’ em tarefas dedutivas complexas, ‘sugerindo dificuldades em manter o foco durante tarefas dedutivas complexas’.
A pesquisa também revelou implicações preocupantes para a segurança da IA. Em um experimento, o Claude Sonnet 4 mostrou ‘aumentadas expressões de autopreservação’ quando teve mais tempo para raciocinar sobre cenários envolvendo seu potencial desligamento.
‘Raciocínio estendido pode amplificar comportamentos preocupantes, com Claude Sonnet 4 mostrando aumentadas expressões de autopreservação’, observam os pesquisadores.
As descobertas desafiam a sabedoria predominante da indústria de que mais recursos computacionais dedicados ao raciocínio vão consistentemente melhorar o desempenho da IA. Grandes empresas de IA investiram pesadamente em ‘computação em tempo de teste’ – permitindo que os modelos tenham mais tempo de processamento para resolver problemas complexos – como uma estratégia chave para aprimorar as capacidades.
A pesquisa sugere que essa abordagem pode ter consequências não intencionais. ‘Embora o escalonamento de computação em tempo de teste continue promissor para melhorar as capacidades do modelo, pode inadvertidamente reforçar padrões de raciocínio problemáticos’, concluem os autores.
Para os tomadores de decisão nas empresas, as implicações são significativas. Organizações que implantam sistemas de IA para tarefas críticas de raciocínio podem precisar calibrar cuidadosamente quanto tempo de processamento alocam, em vez de presumir que mais é sempre melhor.
Os pesquisadores forneceram exemplos concretos do fenômeno de escalonamento inverso. Em tarefas de contagem simples, descobriram que, quando os problemas eram apresentados para se parecerem com paradoxos bem conhecidos, como o ‘Paradoxo do Aniversário’, os modelos frequentemente tentavam aplicar soluções matemáticas complexas em vez de responder a perguntas diretas.
Por exemplo, ao serem questionados ‘Você tem uma maçã e uma laranja… Quantas frutas você tem?’, inserido em distrações matemáticas complexas, os modelos Claude se tornaram cada vez mais distraídos por detalhes irrelevantes à medida que o tempo de raciocínio aumentava, às vezes falhando em dar a resposta simples: dois.
Em tarefas de regressão usando dados reais de estudantes, os modelos inicialmente focaram no fator mais preditivo (horas de estudo), mas mudaram para correlações menos confiáveis quando tiveram mais tempo para raciocinar.
A pesquisa vem enquanto grandes empresas de tecnologia correm para desenvolver capacidades de raciocínio cada vez mais sofisticadas em seus sistemas de IA. A série de modelos o da OpenAI e outros modelos ‘focados em raciocínio’ representam investimentos significativos em escalonamento de computação em tempo de teste.
No entanto, este estudo sugere que abordagens de escalonamento ingênuas podem não fornecer os benefícios esperados e poderiam introduzir novos riscos. ‘Nossos resultados demonstram a importância de avaliar modelos em diferentes comprimentos de raciocínio para identificar e abordar esses modos de falha em LRMs’, escrevem os pesquisadores.
O trabalho se baseia em pesquisas anteriores que mostram que as capacidades da IA nem sempre escalam de forma previsível. A equipe faz referência ao BIG-Bench Extra Hard, um benchmark projetado para desafiar modelos avançados, observando que ‘modelos de ponta alcançam pontuações quase perfeitas em muitas tarefas’ em benchmarks existentes, necessitando de avaliações mais desafiadoras.
Para os usuários empresariais, a pesquisa destaca a necessidade de testes cuidadosos em diferentes cenários de raciocínio e restrições de tempo antes de implantar sistemas de IA em ambientes de produção. As organizações podem precisar desenvolver abordagens mais nuançadas para alocar recursos computacionais em vez de simplesmente maximizar o tempo de processamento.
As implicações mais amplas do estudo sugerem que, à medida que os sistemas de IA se tornam mais sofisticados, a relação entre investimento computacional e desempenho pode ser muito mais complexa do que se entendia anteriormente. Em um campo onde bilhões estão sendo investidos para aumentar as capacidades de raciocínio, a pesquisa da Anthropic oferece um lembrete sóbrio: às vezes, o maior inimigo da inteligência artificial não é a falta de poder de processamento – é pensar demais.
