O sucesso da DeepSeek mostra por que a motivação é a chave para a inovação em IA

Janeiro de 2025 abalou o cenário da IA. A aparentemente imparável OpenAI e os poderosos gigantes da tecnologia americana foram surpreendidos pelo que podemos certamente chamar de azarão na área de modelos de linguagem de grande porte (LLMs). A DeepSeek, uma empresa chinesa que não estava no radar de ninguém, de repente desafiou a OpenAI. Não é que o DeepSeek-R1 fosse melhor do que os principais modelos dos gigantes americanos; ele estava ligeiramente atrás em termos de benchmarks, mas de repente fez todos pensarem sobre a eficiência em termos de uso de hardware e energia.

Dada a indisponibilidade do melhor hardware de ponta, parece que a DeepSeek estava motivada a inovar na área de eficiência, que era uma preocupação menor para os players maiores. A OpenAI alegou que tem evidências sugerindo que a DeepSeek pode ter usado seu modelo para treinamento, mas não temos provas concretas para apoiar isso. Portanto, se é verdade ou se a OpenAI está simplesmente tentando agradar seus investidores é um tópico de debate. No entanto, a DeepSeek publicou seu trabalho, e as pessoas verificaram que os resultados são reproduzíveis, pelo menos em uma escala muito menor.

Mas como a DeepSeek conseguiu tais economias de custo enquanto as empresas americanas não conseguiram? A resposta curta é simples: eles tinham mais motivação. A resposta longa requer uma explicação técnica um pouco mais detalhada.

A DeepSeek usou otimização de cache de chave-valor

Uma importante economia de custo para a memória da GPU foi a otimização do cache de chave-valor usado em cada camada de atenção em um LLM.

Os LLMs são compostos por blocos de transformadores, cada um dos quais compreende uma camada de atenção seguida por uma rede neural feed-forward comum. A rede feed-forward modela conceitualmente relações arbitrárias, mas na prática, é difícil para ela sempre determinar padrões nos dados. A camada de atenção resolve esse problema para a modelagem de linguagem.

O modelo processa textos usando tokens, mas para simplificar, nos referiremos a eles como palavras. Em um LLM, cada palavra recebe um vetor em alta dimensão (digamos, mil dimensões). Conceitualmente, cada dimensão representa um conceito, como estar quente ou frio, ser verde, ser macio, ser um substantivo. A representação vetorial de uma palavra é seu significado e valores de acordo com cada dimensão.

No entanto, nossa linguagem permite que outras palavras modifiquem o significado de cada palavra. Por exemplo, uma maçã tem um significado. Mas podemos ter uma maçã verde como uma versão modificada. Um exemplo mais extremo de modificação seria que uma maçã em um contexto de iPhone difere de uma maçã em um contexto de prado. Como permitimos que nosso sistema modifique a representação vetorial de uma palavra com base em outra palavra? É aqui que entra a atenção.

O modelo de atenção atribui dois outros vetores a cada palavra: uma chave e uma consulta. A consulta representa as qualidades do significado de uma palavra que podem ser modificadas, e a chave representa o tipo de modificações que pode fornecer a outras palavras. Por exemplo, a palavra ‘verde’ pode fornecer informações sobre cor e ‘verdecidade’. Assim, a chave da palavra ‘verde’ terá um alto valor na dimensão ‘verdecidade’. Por outro lado, a palavra ‘maçã’ pode ser verde ou não, então o vetor de consulta de ‘maçã’ também teria um alto valor na dimensão ‘verdecidade’. Se tomarmos o produto escalar da chave de ‘verde’ com a consulta de ‘maçã’, o produto deve ser relativamente grande em comparação com o produto da chave de ‘mesa’ e a consulta de ‘maçã’. A camada de atenção então adiciona uma pequena fração do valor da palavra ‘verde’ ao valor da palavra ‘maçã’. Dessa forma, o valor da palavra ‘maçã’ é modificado para ser um pouco mais verde.

Quando o LLM gera texto, ele o faz uma palavra após a outra. Quando gera uma palavra, todas as palavras previamente geradas se tornam parte de seu contexto. No entanto, as chaves e valores dessas palavras já foram computados. Quando outra palavra é adicionada ao contexto, seu valor precisa ser atualizado com base em sua consulta e nas chaves e valores de todas as palavras anteriores. É por isso que todos esses valores são armazenados na memória da GPU. Este é o cache KV.

A DeepSeek determinou que a chave e o valor de uma palavra estão relacionados. Portanto, o significado da palavra verde e sua capacidade de afetar a ‘verdecidade’ estão obviamente muito relacionados. Assim, é possível comprimir ambos como um único vetor (e talvez menor) e descomprimir enquanto processa muito facilmente. A DeepSeek descobriu que isso afeta seu desempenho em benchmarks, mas economiza muita memória da GPU.

A DeepSeek aplicou MoE

A natureza de uma rede neural é que toda a rede precisa ser avaliada (ou computada) para cada consulta. No entanto, nem toda essa computação é útil. O conhecimento do mundo reside nos pesos ou parâmetros de uma rede. O conhecimento sobre a Torre Eiffel não é usado para responder perguntas sobre a história das tribos sul-americanas. Saber que uma maçã é uma fruta não é útil ao responder perguntas sobre a teoria geral da relatividade. No entanto, quando a rede é computada, todas as partes da rede são processadas independentemente. Isso incorre em enormes custos de computação durante a geração de texto que idealmente deveriam ser evitados. É aqui que entra a ideia do modelo de mistura de especialistas (MoE).

Em um modelo MoE, a rede neural é dividida em várias redes menores chamadas especialistas. Observe que o ‘especialista’ no assunto não é explicitamente definido; a rede descobre isso durante o treinamento. No entanto, as redes atribuem alguma pontuação de relevância a cada consulta e apenas ativam as partes com pontuações de correspondência mais altas. Isso proporciona enormes economias de custo em computação. Note que algumas perguntas precisam de especialização em várias áreas para serem respondidas corretamente, e o desempenho de tais consultas será degradado. No entanto, como as áreas são descobertas a partir dos dados, o número de tais perguntas é minimizado.

A importância do aprendizado por reforço

Um LLM é ensinado a pensar por meio de um modelo de cadeia de pensamento, com o modelo ajustado para imitar o pensamento antes de entregar a resposta. O modelo é solicitado a verbalizar seu pensamento (gerar o pensamento antes de gerar a resposta). O modelo é então avaliado tanto no pensamento quanto na resposta, e treinado com aprendizado por reforço (recompensado por uma correspondência correta e penalizado por uma correspondência incorreta com os dados de treinamento).

Isso requer dados de treinamento caros com o token de pensamento. A DeepSeek apenas pediu ao sistema para gerar os pensamentos entre as tags e e para gerar as respostas entre as tags e . O modelo é recompensado ou penalizado puramente com base na forma (o uso das tags) e na correspondência das respostas. Isso exigiu dados de treinamento muito menos caros. Durante a fase inicial de RL, o modelo tentou gerar muito pouco pensamento, o que resultou em respostas incorretas. Eventualmente, o modelo aprendeu a gerar pensamentos longos e coerentes, que é o que a DeepSeek chama de ‘momento a-ha’. Depois desse ponto, a qualidade das respostas melhorou bastante.

A DeepSeek emprega vários truques adicionais de otimização. No entanto, eles são altamente técnicos, então não vou me aprofundar neles aqui.

Pensamentos finais sobre a DeepSeek e o mercado maior

Em qualquer pesquisa tecnológica, primeiro precisamos ver o que é possível antes de melhorar a eficiência. Essa é uma progressão natural. A contribuição da DeepSeek para o cenário dos LLMs é fenomenal. A contribuição acadêmica não pode ser ignorada, independentemente de terem sido treinados usando a saída da OpenAI. Isso também pode transformar a maneira como as startups operam. Mas não há razão para a OpenAI ou os outros gigantes americanos se desesperarem. É assim que a pesquisa funciona — um grupo se beneficia da pesquisa de outros grupos. A DeepSeek certamente se beneficiou da pesquisa anterior realizada pelo Google, OpenAI e inúmeros outros pesquisadores.

No entanto, a ideia de que a OpenAI dominará o mundo dos LLMs indefinidamente agora é muito improvável. Nenhuma quantidade de lobby regulatório ou apontar dedos preservará seu monopólio. A tecnologia já está nas mãos de muitos e está aberta, tornando seu progresso imparável. Embora isso possa ser um pouco de dor de cabeça para os investidores da OpenAI, é, em última análise, uma vitória para o resto de nós. Enquanto o futuro pertence a muitos, sempre seremos gratos a contribuintes iniciais como Google e OpenAI.

Fonte

Compartilhe esse conteúdo: