Dario Amodei desafia a narrativa de IA de $6 milhões da DeepSeek: O que a Anthropic pensa sobre o último movimento da IA da China

O mundo da inteligência artificial foi abalado na semana passada quando a DeepSeek, uma startup chinesa de IA, anunciou seu mais recente modelo de linguagem que parecia igualar as capacidades dos principais sistemas de IA americanos a uma fração do custo. O anúncio desencadeou uma venda generalizada no mercado que eliminou quase $200 bilhões do valor de mercado da Nvidia e gerou debates acalorados sobre o futuro do desenvolvimento de IA.

A narrativa que rapidamente surgiu sugeria que a DeepSeek havia fundamentalmente interrompido a economia de construção de sistemas de IA avançados, supostamente alcançando com apenas $6 milhões o que as empresas americanas gastaram bilhões para realizar. Essa interpretação enviou ondas de choque pelo Vale do Silício, onde empresas como OpenAI, Anthropic e Google justificaram investimentos maciços em infraestrutura de computação como necessários para manter sua vantagem tecnológica.

Mas, em meio à turbulência do mercado e manchetes entusiasmadas, Dario Amodei, cofundador da Anthropic e um dos pesquisadores pioneiros por trás dos grandes modelos de linguagem de hoje, publicou uma análise detalhada que oferece uma perspectiva mais nuançada sobre as conquistas da DeepSeek. Seu post no blog corta a histeria para entregar várias percepções cruciais sobre o que a DeepSeek realmente conseguiu e o que isso significa para o futuro do desenvolvimento de IA.

Aqui estão os quatro principais insights da análise de Amodei que remodelam nossa compreensão do anúncio da DeepSeek:

1. A narrativa do ‘modelo de $6 milhões’ perde o contexto crucial

Os custos de desenvolvimento relatados da DeepSeek precisam ser vistos através de uma lente mais ampla, de acordo com Amodei. Em sua análise, ele desafia diretamente a interpretação popular:

“A DeepSeek não ‘faz por $6M o que custou bilhões para as empresas de IA dos EUA.’ Posso falar apenas pela Anthropic, mas Claude 3.5 Sonnet é um modelo de tamanho médio que custou alguns $10M para treinar (não vou dar um número exato). Além disso, o 3.5 Sonnet não foi treinado de forma alguma que envolvesse um modelo maior ou mais caro (contrariamente a alguns rumores).”

Essa revelação chocante muda fundamentalmente a narrativa em torno da eficiência de custo da DeepSeek. Ao considerar que o Sonnet foi treinado há 9-12 meses e ainda supera o modelo da DeepSeek em muitas tarefas, a conquista parece mais alinhada com a progressão natural dos custos de desenvolvimento de IA do que com um avanço revolucionário.

O tempo e o contexto também importam significativamente. Seguindo as tendências históricas de redução de custos no desenvolvimento de IA — que Amodei estima em cerca de 4x por ano — a estrutura de custos da DeepSeek parece estar amplamente em linha com a tendência, em vez de dramaticamente à frente da curva.

2. DeepSeek-V3, não R1, foi a verdadeira conquista técnica

Enquanto os mercados e a mídia se concentraram intensamente no modelo R1 da DeepSeek, Amodei aponta que a inovação mais significativa da empresa veio antes:

“DeepSeek-V3 foi na verdade a verdadeira inovação e o que deveria ter feito as pessoas prestarem atenção há um mês (nós certamente fizemos). Como um modelo pré-treinado, ele parece se aproximar do desempenho dos modelos dos EUA de ponta em algumas tarefas importantes, enquanto custa substancialmente menos para treinar.”

A distinção entre V3 e R1 é crucial para entender o verdadeiro avanço tecnológico da DeepSeek. V3 representou inovações genuínas de engenharia, particularmente na gestão do ‘cache de chave-valor’ do modelo e no empurrar os limites do método de ‘mistura de especialistas’.

Esse insight ajuda a explicar por que a reação dramática do mercado ao R1 pode ter sido equivocada. O R1 basicamente adicionou capacidades de aprendizado por reforço à base do V3 — um passo que várias empresas estão atualmente tomando com seus modelos.

3. O investimento corporativo total revela uma imagem diferente

Talvez o aspecto mais revelador da análise de Amodei diga respeito ao investimento total da DeepSeek em desenvolvimento de IA:

“Foi relatado — não podemos ter certeza se é verdade — que a DeepSeek na verdade tinha 50.000 chips de geração Hopper, que eu apostaria que está dentro de um fator de ~2-3x do que as principais empresas de IA dos EUA têm. Esses 50.000 chips Hopper custam em torno de ~$1B. Assim, o gasto total da DeepSeek como empresa (distinto do gasto para treinar um modelo individual) não é muito diferente dos laboratórios de IA dos EUA.”

Essa revelação reestrutura dramaticamente a narrativa em torno da eficiência de recursos da DeepSeek. Embora a empresa possa ter alcançado resultados impressionantes com o treinamento de modelos individuais, seu investimento total em desenvolvimento de IA parece ser aproximadamente comparável ao de seus homólogos americanos.

A distinção entre custos de treinamento de modelos e investimento corporativo total destaca a importância contínua de recursos substanciais no desenvolvimento de IA. Isso sugere que, embora a eficiência de engenharia possa ser melhorada, permanecer competitivo em IA ainda requer um investimento significativo de capital.

4. O atual ‘ponto de cruzamento’ é temporário

Amodei descreve o momento atual no desenvolvimento de IA como único, mas passageiro:

“Estamos, portanto, em um interessante ‘ponto de cruzamento’, onde é temporariamente o caso que várias empresas podem produzir bons modelos de raciocínio. Isso rapidamente deixará de ser verdade à medida que todos avancem mais na curva de escalonamento desses modelos.”

Essa observação fornece um contexto crucial para entender o estado atual da competição em IA. A capacidade de várias empresas de alcançar resultados semelhantes em capacidades de raciocínio representa um fenômeno temporário, em vez de um novo status quo.

As implicações são significativas para o futuro do desenvolvimento de IA. À medida que as empresas continuam a escalar seus modelos, particularmente na área intensiva em recursos do aprendizado por reforço, o campo provavelmente voltará a se diferenciar com base em quem pode investir mais em treinamento e infraestrutura. Isso sugere que, embora a DeepSeek tenha alcançado um marco impressionante, não alterou fundamentalmente a economia de longo prazo do desenvolvimento avançado de IA.

O verdadeiro custo de construir IA: O que a análise de Amodei revela

A análise detalhada de Dario sobre as conquistas da DeepSeek corta semanas de especulação do mercado para expor a verdadeira economia de construção de sistemas de IA avançados. Seu post no blog desmonta sistematicamente tanto o pânico quanto o entusiasmo que se seguiram ao anúncio da DeepSeek, mostrando como o custo de treinamento do modelo de $6 milhões da empresa se encaixa na marcha constante do desenvolvimento de IA.

Os mercados e a mídia gravitavam em torno de narrativas simples, e a história de uma empresa chinesa subestimando dramaticamente os custos de desenvolvimento de IA dos EUA provou ser irresistível. No entanto, a análise de Amodei revela uma realidade mais complexa: o investimento total da DeepSeek, particularmente os relatados $1 bilhão em hardware de computação, espelha os gastos de seus homólogos americanos.

Este momento de paridade de custos entre o desenvolvimento de IA dos EUA e da China marca o que Amodei chama de “ponto de cruzamento” — uma janela temporária onde várias empresas podem alcançar resultados semelhantes. Sua análise sugere que essa janela se fechará à medida que as capacidades de IA avançarem e as demandas de treinamento aumentarem. O campo provavelmente retornará a favorecer organizações com os recursos mais profundos.

Construir IA avançada continua a ser uma empreitada cara, e o exame cuidadoso de Amodei mostra por que medir seu verdadeiro custo requer examinar o escopo total do investimento. Sua desconstrução metódica das conquistas da DeepSeek pode acabar se mostrando mais significativa do que o anúncio inicial que provocou tanta turbulência nos mercados.

Fonte

Compartilhe esse conteúdo: