Está se tornando cada vez mais claro que os modelos de linguagem de IA são uma ferramenta comum, já que a repentina ascensão de ofertas de código aberto como o DeepSeek mostra que podem ser montados com um orçamento relativamente pequeno. Um novo participante chamado S1 está mais uma vez reforçando essa ideia, pois pesquisadores da Stanford e da Universidade de Washington treinaram o modelo de “raciocínio” usando menos de $50 em créditos de computação em nuvem.
S1 é um concorrente direto do o1 da OpenAI, que é chamado de modelo de raciocínio porque produz respostas a solicitações “pensando” em perguntas relacionadas que podem ajudá-lo a verificar seu trabalho. Por exemplo, se o modelo é solicitado a determinar quanto custaria substituir todos os veículos da Uber na estrada pela frota da Waymo, ele pode dividir a pergunta em várias etapas—como verificar quantos Ubers estão na estrada hoje e quanto custa fabricar um veículo da Waymo.
De acordo com o TechCrunch, S1 é baseado em um modelo de linguagem pronto para uso, que foi ensinado a raciocinar estudando perguntas e respostas de um modelo do Google, o Gemini 2.0 Flashing Thinking Experimental. O modelo do Google mostra o processo de pensamento por trás de cada resposta que retorna, permitindo que os desenvolvedores do S1 deem ao seu modelo uma quantidade relativamente pequena de dados de treinamento—1.000 perguntas cuidadosamente selecionadas, juntamente com as respostas—e o ensinem a imitar o processo de pensamento do Gemini.
Outro detalhe interessante é como os pesquisadores conseguiram melhorar o desempenho de raciocínio do S1 usando um método engenhoso e simples:
Os pesquisadores usaram um truque inteligente para fazer o S1 verificar seu trabalho e estender seu “tempo de pensamento”: eles disseram a ele para esperar. Adicionar a palavra “esperar” durante o raciocínio do S1 ajudou o modelo a chegar a respostas ligeiramente mais precisas, segundo o artigo.
Isso sugere que, apesar das preocupações de que os modelos de IA estão atingindo um limite em suas capacidades, ainda há muito potencial inexplorado. Algumas melhorias notáveis em um ramo da ciência da computação estão se resumindo a conjurar as palavras de encantamento certas.
A OpenAI supostamente reclamou sobre a equipe chinesa do DeepSeek treinando com base nas saídas de seu modelo. A ironia não passa despercebida pela maioria das pessoas. O ChatGPT e outros modelos principais foram treinados com dados raspados da web sem permissão, uma questão que ainda está sendo litigada nos tribunais, enquanto empresas como o New York Times buscam proteger seu trabalho de ser utilizado sem compensação. O Google também proíbe tecnicamente concorrentes como o S1 de treinar com as saídas do Gemini.
Em última análise, o desempenho do S1 é impressionante, mas não sugere que alguém pode treinar um modelo menor do zero com apenas $50. O modelo essencialmente se aproveitou de todo o treinamento do Gemini, obtendo uma “cola”. Uma boa analogia pode ser a compressão em imagens. Uma versão destilada de um modelo de IA pode ser comparada a um JPEG de uma foto. Boa, mas ainda assim com perdas. E os grandes modelos de linguagem ainda sofrem de muitos problemas de precisão, especialmente grandes modelos gerais que buscam na web inteira para produzir respostas. Mas um modelo como o S1 poderia ser útil em áreas como processamento em dispositivo para recursos como a Inteligência da Apple.
Houve muito debate sobre o que a ascensão de modelos baratos e de código aberto pode significar para a indústria de tecnologia em geral. A OpenAI está condenada se seus modelos puderem ser facilmente copiados por qualquer um? Defensores da empresa dizem que os modelos de linguagem sempre estavam destinados a ser comoditizados. A OpenAI, junto com o Google e outros, terá sucesso em construir aplicações úteis em cima dos modelos. Mais de 300 milhões de pessoas usam o ChatGPT a cada semana, e o produto se tornou sinônimo de chatbots e uma nova forma de busca. A interface em cima dos modelos, como o Operador da OpenAI que pode navegar na web para um usuário, ou um conjunto de dados único como o acesso da xAI aos dados do X (anteriormente Twitter), é o que será o verdadeiro diferencial.
Outra coisa a considerar é que a “inferência” deve continuar cara. A inferência é o processamento real de cada consulta de usuário enviada a um modelo. À medida que os modelos de IA se tornam mais baratos e acessíveis, o pensamento é que a IA infectará todos os aspectos de nossas vidas, resultando em uma demanda muito maior por recursos computacionais, não menos. E o projeto de fazenda de servidores de $500 bilhões da OpenAI não será um desperdício. Isso, desde que todo esse hype em torno da IA não seja apenas uma bolha.