Um novo artigo de pesquisadores da Google Research e da Universidade da Califórnia, Berkeley, demonstra que uma surpreendentemente simples abordagem de escalonamento de teste pode aumentar as habilidades de raciocínio de grandes modelos de linguagem (LLMs). A chave? Aumentar a busca baseada em amostragem, uma técnica que depende da geração de múltiplas respostas e do uso do próprio modelo para verificá-las.
A descoberta central é que até mesmo uma implementação minimalista de busca baseada em amostragem, usando amostragem aleatória e auto-verificação, pode elevar o desempenho de raciocínio de modelos como o Gemini 1.5 Pro além do o1-Preview em benchmarks populares. As descobertas podem ter implicações importantes para aplicações empresariais e desafiar a suposição de que treinamento altamente especializado ou arquiteturas complexas são sempre necessárias para alcançar desempenho de alto nível.
Os limites do escalonamento de computação em teste atual
O método popular atual para escalonamento em teste em LLMs é treinar o modelo por meio de aprendizado por reforço para gerar respostas mais longas com rastros de pensamento encadeado (CoT). Essa abordagem é usada em modelos como o o1 da OpenAI e o DeepSeek-R1. Embora benéfica, esses métodos geralmente exigem um investimento substancial na fase de treinamento.
Outro método de escalonamento em teste é a “auto-consistência”, onde o modelo gera múltiplas respostas para a consulta e escolhe a resposta que aparece com mais frequência. A auto-consistência atinge seus limites ao lidar com problemas complexos, pois nesses casos, a resposta mais repetida não é necessariamente a correta.
A busca baseada em amostragem oferece uma alternativa mais simples e altamente escalável ao escalonamento em teste: deixar o modelo gerar múltiplas respostas e selecionar a melhor por meio de um mecanismo de verificação. A busca baseada em amostragem pode complementar outras estratégias de escalonamento de computação em teste e, como os pesquisadores escrevem em seu artigo, “também tem a vantagem única de ser embaraçosamente paralela e permitir escalonamento arbitrário: simplesmente amostre mais respostas.”
Mais importante, a busca baseada em amostragem pode ser aplicada a qualquer LLM, incluindo aqueles que não foram explicitamente treinados para raciocínio.
Como funciona a busca baseada em amostragem
Os pesquisadores se concentram em uma implementação minimalista da busca baseada em amostragem, usando um modelo de linguagem tanto para gerar respostas candidatas quanto para verificá-las. Este é um processo de “auto-verificação”, onde o modelo avalia suas próprias saídas sem depender de respostas externas verdadeiras ou sistemas de verificação simbólica.
O algoritmo funciona em algumas etapas simples:
1—O algoritmo começa gerando um conjunto de soluções candidatas para o problema dado usando um modelo de linguagem. Isso é feito dando ao modelo o mesmo prompt várias vezes e usando uma configuração de temperatura diferente de zero para criar um conjunto diverso de respostas.
2—Cada resposta candidata passa por um processo de verificação no qual o LLM é solicitado várias vezes para determinar se a resposta está correta. Os resultados da verificação são então avaliados para criar uma pontuação final de verificação para a resposta.
3—O algoritmo seleciona a resposta com a pontuação mais alta como a resposta final. Se múltiplos candidatos estiverem próximos uns dos outros, o LLM é solicitado a compará-los em pares e escolher o melhor. A resposta que vencer a maioria das comparações em pares é escolhida como a resposta final.
Os pesquisadores consideraram dois eixos principais para o escalonamento em teste:
Amostragem: O número de respostas que o modelo gera para cada problema de entrada.
Verificação: O número de pontuações de verificação calculadas para cada solução gerada
Como a busca baseada em amostragem se compara a outras técnicas
O estudo revelou que o desempenho de raciocínio continua a melhorar com a busca baseada em amostragem, mesmo quando a computação em teste é escalada muito além do ponto em que a auto-consistência se satura.
Em uma escala suficiente, essa implementação minimalista aumenta significativamente a precisão do raciocínio em benchmarks de raciocínio como AIME e MATH. Por exemplo, o desempenho do Gemini 1.5 Pro superou o do o1-Preview, que foi explicitamente treinado em problemas de raciocínio, e o Gemini 1.5 Flash superou o Gemini 1.5 Pro.
“Isso não apenas destaca a importância da busca baseada em amostragem para capacidade de escalonamento, mas também sugere a utilidade da busca baseada em amostragem como uma linha de base simples na qual comparar outras estratégias de escalonamento de computação em teste e medir melhorias genuínas nas capacidades de busca dos modelos”, escrevem os pesquisadores.
Vale ressaltar que, embora os resultados da amostragem baseada em busca sejam impressionantes, os custos também podem se tornar proibitivos. Por exemplo, com 200 amostras e 50 etapas de verificação por amostra, uma consulta do AIME gerará cerca de 130 milhões de tokens, o que custa $650 com o Gemini 1.5 Pro. No entanto, essa é uma abordagem muito minimalista para a busca baseada em amostragem, e é compatível com técnicas de otimização propostas em outros estudos. Com métodos mais inteligentes de amostragem e verificação, os custos de inferência podem ser reduzidos consideravelmente usando modelos menores e gerando menos tokens. Por exemplo, ao usar o Gemini 1.5 Flash para realizar a verificação, os custos caem para $12 por pergunta.
Estratégias eficazes de auto-verificação
Há um debate em andamento sobre se os LLMs podem verificar suas próprias respostas. Os pesquisadores identificaram duas estratégias principais para melhorar a auto-verificação usando a computação em teste:
Comparação direta de candidatos de resposta: Desacordos entre soluções candidatas indicam fortemente erros potenciais. Ao fornecer ao verificador múltiplas respostas para comparar, o modelo pode identificar melhor erros e alucinações, abordando uma fraqueza central dos LLMs. Os pesquisadores descrevem isso como uma instância de “escalonamento implícito.”
Reescrita específica da tarefa: Os pesquisadores propõem que o estilo de saída ideal de um LLM depende da tarefa. O pensamento encadeado é eficaz para resolver tarefas de raciocínio, mas as respostas são mais fáceis de verificar quando escritas em um estilo mais formal e convencional matematicamente. Os verificadores podem reescrever as respostas candidatas em um formato mais estruturado (por exemplo, teorema-lemá-prova) antes da avaliação.
“Antecipamos que as capacidades de auto-verificação do modelo melhorem rapidamente em curto prazo, à medida que os modelos aprendem a aproveitar os princípios de escalonamento implícito e a adequação do estilo de saída, e impulsionem taxas de escalonamento melhoradas para a busca baseada em amostragem”, escrevem os pesquisadores.
Implicações para aplicações do mundo real
O estudo demonstra que uma técnica relativamente simples pode alcançar resultados impressionantes, potencialmente reduzindo a necessidade de arquiteturas de modelo complexas e dispendiosas ou regimes de treinamento.
Esta é também uma técnica escalável, permitindo que as empresas aumentem o desempenho alocando mais recursos de computação para amostragem e verificação. Além disso, permite que os desenvolvedores superem as limitações dos modelos de linguagem de fronteira em tarefas complexas.
“Dado que complementa outras estratégias de escalonamento de computação em teste, é paralelizável e permite escalonamento arbitrário, e admite implementações simples que são demonstravelmente eficazes, esperamos que a busca baseada em amostragem desempenhe um papel crucial à medida que os modelos de linguagem são encarregados de resolver problemas cada vez mais complexos com orçamentos de computação cada vez maiores”, escrevem os pesquisadores.