Pesquisadores de IA da Stanford e da Universidade de Washington conseguiram treinar um modelo de IA de “raciocínio” por menos de $50 em créditos de computação em nuvem, de acordo com um novo artigo de pesquisa divulgado na última sexta-feira.
O modelo conhecido como s1 apresenta desempenho semelhante a modelos de raciocínio de ponta, como o o1 da OpenAI e o r1 da DeepSeek, em testes que medem habilidades em matemática e programação. O modelo s1 está disponível no GitHub, juntamente com os dados e o código usados para treiná-lo.
A equipe por trás do s1 afirmou que criou o modelo de IA através da destilação, um processo para extrair as capacidades de “raciocínio” de outro modelo de IA treinando com suas respostas. Os pesquisadores disseram que o s1 é destilado de um dos modelos de raciocínio do Google, o Gemini 2.0 Flash Thinking Experimental. A destilação é a mesma abordagem que pesquisadores de Berkeley usaram para criar um modelo de raciocínio de IA por cerca de $450 no mês passado.
Para alguns, a ideia de que alguns pesquisadores sem milhões de dólares por trás deles ainda podem inovar no espaço de IA é empolgante. Mas o s1 levanta questões reais sobre a comoditização dos modelos de IA. Onde está a proteção se alguém pode replicar de perto um modelo de vários milhões de dólares com um troco relativamente pequeno?
Não surpreendentemente, grandes laboratórios de IA não estão felizes. A OpenAI acusou a DeepSeek de colher dados de forma inadequada de sua API para fins de destilação do modelo.
Os pesquisadores por trás do s1 estavam buscando encontrar a abordagem mais simples para alcançar um forte desempenho em raciocínio e “escalonamento em tempo de teste”, ou seja, permitir que um modelo de IA pense mais antes de responder a uma pergunta. Esses foram alguns dos avanços no o1 da OpenAI, que a DeepSeek e outros laboratórios de IA tentaram replicar através de várias técnicas.
O artigo do s1 sugere que modelos de raciocínio podem ser destilados com um conjunto de dados relativamente pequeno usando um processo chamado ajuste fino supervisionado (SFT), no qual um modelo de IA é explicitamente instruído a imitar certos comportamentos em um conjunto de dados. O SFT tende a ser mais barato do que o método de aprendizado por reforço em larga escala que a DeepSeek empregou para treinar sua resposta ao o1 da OpenAI, R1.
O Google oferece acesso gratuito ao Gemini 2.0 Flash Thinking Experimental, embora com limites diários, por meio de sua plataforma Google AI Studio. Seus termos proíbem a engenharia reversa de seus modelos para desenvolver serviços que competem com as próprias ofertas de IA do Google, no entanto. Entramos em contato com o Google para comentar.
O S1 é baseado em um pequeno modelo de IA de prateleira do laboratório de IA Qwen, pertencente à Alibaba, que está disponível para download gratuito. Para treinar o s1, os pesquisadores criaram um conjunto de dados de apenas 1.000 perguntas cuidadosamente selecionadas, emparelhadas com respostas a essas perguntas, bem como o processo de “pensamento” por trás de cada resposta do Gemini 2.0 Flash Thinking Experimental do Google.
Após o treinamento do s1, que levou menos de 30 minutos usando 16 GPUs Nvidia H100, o s1 alcançou um desempenho forte em certos benchmarks de IA, de acordo com os pesquisadores. Niklas Muennighoff, um pesquisador da Stanford que trabalhou no projeto, disse ao TechCrunch que poderia alugar a computação necessária hoje por cerca de $20.
Os pesquisadores usaram um truque inteligente para fazer o s1 verificar seu trabalho e estender seu tempo de “pensamento”: eles disseram para ele esperar. Adicionar a palavra “esperar” durante o raciocínio do s1 ajudou o modelo a chegar a respostas ligeiramente mais precisas, segundo o artigo.
Em 2025, a Meta, Google e Microsoft planejam investir centenas de bilhões de dólares em infraestrutura de IA, que serão parcialmente direcionados ao treinamento de modelos de IA de próxima geração. Esse nível de investimento ainda pode ser necessário para impulsionar a inovação em IA. A destilação demonstrou ser um bom método para recriar as capacidades de um modelo de IA de forma acessível, mas não cria novos modelos de IA que sejam significativamente melhores do que os disponíveis hoje.