Lembra quando o DeepSeek abalou brevemente toda a indústria de inteligência artificial ao lançar seu modelo de linguagem grande, R1, que foi treinado por uma fração do dinheiro que a OpenAI e outros grandes players estavam investindo em seus modelos? Graças a um novo artigo publicado pela equipe da DeepSeek AI na revista Nature, finalmente sabemos o que foi necessário para treinar o DeepSeek 1: $294.000 e 512 chips Nvidia H800. A razão pela qual pôde gastar menos, parece, é por causa do uso de técnicas de aprendizado por reforço baseadas em tentativa e erro pela equipe.
A maioria dos modelos de IA encarregados de realizar tarefas de raciocínio precisa ser treinada com dados anotados por humanos e demonstrações para “aprender” a resolver certos problemas, o que é caro e demorado para escalar à medida que os modelos recebem tarefas mais desafiadoras. O DeepSeek descobriu que poderia melhorar o raciocínio e as saídas de seu modelo simplesmente incentivando-o a realizar um processo de tentativa e erro até chegar à resposta certa.
Em um artigo que acompanha o artigo, a professora assistente da Carnegie Mellon University, Daphne Ippolito, e o estudante de doutorado Yiming Zhang explicam o método de reforço comparando-o a uma criança jogando um videogame: “À medida que a criança navega seu avatar pelo mundo do jogo, ela aprende por tentativa e erro que algumas ações (como coletar moedas de ouro) ganham pontos, enquanto outras (como colidir com inimigos) zeram sua pontuação. De maneira semelhante, o DeepSeek-R1 foi premiado com uma pontuação alta quando respondia perguntas corretamente e uma pontuação baixa quando dava respostas erradas.”
Pesquisas anteriores mostraram que usar uma abordagem de solicitação – pedindo a um LLM que fornecesse uma explicação passo a passo de como chega à sua saída – oferece respostas mais precisas. Mas a equipe do DeepSeek descobriu uma maneira de obter respostas melhores por meio de reforço, atribuindo um sistema de pontuação às saídas produzidas pelo R1. Isso funciona particularmente bem com questões de matemática e programação, que geralmente têm uma resposta verificavelmente correta. Ao usar esse método em vez de raciocínio guiado por humanos, o LLM conseguiu chegar a uma conclusão correta por conta própria enquanto buscava as pontuações mais altas.
Embora as saídas desse método pareçam ser mais precisas, também obscurece um pouco mais o “pensamento” da máquina para os humanos que tentam acompanhar. Ao ser solicitado a produzir uma trilha de raciocínio para sua resposta, o modelo às vezes alternava entre o inglês e o chinês. Ele também produziu explicações que tinham 10.000 palavras ou mais. O método também foi particularmente funcional apenas para respostas com respostas claras e certas, em vez de solicitações mais sutis ou subjetivas.
Independentemente disso, é uma janela interessante para como o DeepSeek conseguiu ser competitivo com um orçamento menor. No entanto, a própria empresa tem bastante ceticismo em torno dela devido à sua proximidade percebida com o governo chinês. Recentemente, pesquisadores mostraram ao The Washington Post que o modelo da empresa se recusava a produzir código com falhas de segurança importantes quando o solicitante indicava que estava trabalhando com grupos considerados sensíveis pelo governo chinês. Os pesquisadores também descobriram que o modelo gerava código menos seguro quando solicitado a produzir trabalho para o Tibete, Taiwan, o movimento religioso Falun Gong ou o Estado Islâmico.
