Como a DeepSeek mudou a paisagem da IA em Silicon Valley

O laboratório de IA chinês DeepSeek provocou a primeira crise de Silicon Valley em 2025 após lançar versões abertas de modelos de IA que competem com a melhor tecnologia que OpenAI, Meta e Google têm a oferecer.

A DeepSeek afirma ter construído seus modelos de forma altamente eficiente e rápida, e está fornecendo esses modelos a uma fração do preço cobrado pelas empresas de IA americanas. O desenvolvimento incomodou não apenas os gigantes da tecnologia, mas também os mais altos níveis do governo dos EUA, que temem que a China esteja avançando na corrida armamentista de IA.

“Não ficaria surpreso se muitos laboratórios de IA estivessem com salas de guerra acontecendo agora”, disse Robert Nishihara, co-fundador da startup de infraestrutura de IA Anyscale, em uma entrevista ao TechCrunch.

A ascensão da DeepSeek marca um ponto de inflexão para a paisagem da IA em Silicon Valley. CEOs, fundadores, pesquisadores e investidores de IA disseram ao TechCrunch que os modelos da DeepSeek têm implicações importantes para a política de IA americana. Além disso, esses especialistas afirmam que os modelos servem como um indicador da taxa acelerada de progresso na IA.

“Claro que [a DeepSeek] foi superestimada”, disse Ravid Shwartz-Ziv, professor assistente no Centro de Ciência de Dados da NYU, ao TechCrunch. “Mas ainda é muito interessante, e há muito que podemos tirar disso.”

Novas maneiras de fazer IA pensar

Uma das inovações-chave da DeepSeek na criação de seu modelo R1 foi o “aprendizado por reforço puro”, uma abordagem de tentativa e erro, segundo Kian Katanforoosh, CEO da Workera e professor adjunto na Stanford.

Katanforoosh comparou a quebra de barreras da DeepSeek a uma criança que descobre que não deve tocar em uma chapa quente ao se queimar acidentalmente.

“[Uma criança] pode tocar em uma chapa quente, se queimar e aprender rapidamente a não fazer isso novamente”, disse Katanforoosh via texto. “Isso é aprendizado por reforço puro — aprender por tentativa e erro com base no feedback […] O método da DeepSeek é totalmente sobre deixar o modelo aprender apenas através da experiência.”

A DeepSeek parece ter confiado mais fortemente no aprendizado por reforço do que outros modelos de IA de ponta. A OpenAI também usou técnicas de aprendizado por reforço para desenvolver o o1, que a empresa revelou semanas antes de a DeepSeek anunciar o R1. O modelo o3, que a OpenAI está prestes a lançar, atinge um desempenho ainda melhor utilizando métodos em grande parte semelhantes, mas também mais computação, afirma a empresa.

O aprendizado por reforço representa uma das maneiras mais promissoras de melhorar modelos de fundação de IA hoje, segundo Katanforoosh. O termo “modelos de fundação” geralmente se refere a modelos de IA treinados em enormes quantidades de dados, como imagens e textos da web. Parece provável que outros laboratórios de IA continuem a empurrar os limites do aprendizado por reforço para melhorar seus modelos de IA, especialmente dado o sucesso da DeepSeek.

Há apenas alguns meses, as empresas de IA se viram lutando para aumentar o desempenho de seus modelos de fundação. Mas o sucesso de métodos como aprendizado por reforço e outros, como ajuste fino supervisionado e escalonamento no momento do teste, indica que o progresso na IA pode estar se acelerando novamente.

“O R1 me deu muito mais confiança de que o ritmo do progresso permanecerá alto”, disse Nathan Lambert, um pesquisador da Ai2, em uma entrevista ao TechCrunch.

Um ponto de virada para a política de IA

O R1, que pode ser baixado e executado em qualquer máquina que atenda aos requisitos de hardware, iguala ou supera o o1 em uma série de benchmarks de IA. Embora não seja a primeira vez que vemos o abismo de desempenho se fechar entre modelos “fechados” como o da OpenAI e modelos disponíveis abertamente, a velocidade com que a DeepSeek fez isso deixou a indústria perplexa.

Isso pode fazer os EUA aumentarem seus investimentos em IA aberta, ou mesmo totalmente de código aberto, para competir com a China. Martin Casado, parceiro geral da Andreessen Horowitz (a16z), diz ao TechCrunch que a DeepSeek prova o quão “errado” foi o raciocínio regulatório dos últimos dois anos.

“Para a IA, acho que isso apenas nos mostra que [os Estados Unidos] não estão sozinhos em nossa capacidade técnica”, disse Casado em uma entrevista. “Soluções muito competitivas podem vir de qualquer lugar, mas em particular, da China. Em vez de dificultar a inovação americana, devemos investir fortemente nela. O código aberto não de forma alguma permite a China. Na verdade, impedir nossas empresas de fazer código aberto significa que nossa tecnologia não se prolifera tanto.”

Casado parecia se referir à recente ordem executiva de IA do ex-presidente Biden, agora revogada, e ao projeto de lei da Califórnia vetoado SB 1047, ambos os quais a a16z se opôs agressivamente. A a16z argumentou que ambas as medidas priorizavam impedir cenários “absurdos” de apocalipse pela IA em detrimento da inovação americana. Mais amplamente, Silicon Valley geralmente teve sucesso em minimizar o “movimento do apocalipse da IA” em 2024. A verdadeira preocupação em torno da IA, a a16z e outros têm dito repetidamente, é a América perder sua vantagem competitiva para a China.

Esse cenário parece muito mais tangível à luz da ascensão da DeepSeek.

Não por acaso, a a16z está fortemente investida em muitos dos maiores players do mundo da IA aberta, incluindo Databricks, Mistral e Black Forest Labs. A firma de capital de risco também pode desempenhar um papel desproporcional ao aconselhar a Administração Trump sobre IA. O ex-parceiro da a16z, Sriram Krishnan, agora é conselheiro sênior de políticas de IA de Trump.

O presidente Trump disse na segunda-feira que a DeepSeek deve ser um “sinal de alerta” para as empresas de IA americanas, enquanto elogiava o laboratório de IA chinês por sua abordagem aberta. Isso se alinha muito de perto com a posição da a16z sobre IA.

“O DeepSeek R1 é o momento Sputnik da IA”, disse o co-fundador da a16z, Marc Andreessen, em uma postagem no X, referindo-se ao lançamento da espaçonave que orbita a Terra pela União Soviética décadas atrás e que levou os EUA a investir seriamente em seu programa espacial.

A ascensão da DeepSeek também parece ter mudado a opinião de céticos da IA aberta, como o ex-CEO da Google, Eric Schmidt. Somente no ano passado, Schmidt expressou preocupação sobre a proliferação de modelos de IA abertos ocidentais ao redor do globo. Mas em um artigo de opinião publicado na terça-feira, Schmidt disse que a ascensão da DeepSeek marca um “ponto de virada” na corrida global de IA e pediu maior investimento em IA aberta americana.

Olhando para frente

É importante não exagerar as conquistas da DeepSeek.

Por exemplo, alguns analistas são céticos da alegação da DeepSeek de que treinou um de seus modelos de fronteira, o DeepSeek V3, por apenas 5,6 milhões de dólares — uma pechincha na indústria de IA — usando cerca de 2.000 GPUs Nvidia mais antigas. O laboratório de IA chinês não surgiu da noite para o dia, afinal, e a DeepSeek supostamente possui um estoque de mais de 50.000 GPUs Nvidia Hopper mais capazes.

Os modelos da DeepSeek também são defeituosos. De acordo com um teste realizado pela organização de confiabilidade da informação NewsGuard, o R1 fornece respostas imprecisas ou não respostas 83% das vezes quando questionado sobre tópicos relacionados a notícias. Um teste separado descobriu que o R1 se recusa a responder 85% dos prompts relacionados à China, possivelmente uma consequência da censura do governo à qual os modelos de IA desenvolvidos no país estão sujeitos.

Então, há as alegações de roubo de propriedade intelectual. A OpenAI afirma ter evidências de que a DeepSeek usou seus modelos de IA para treinar os seus, o que, se verdadeiro, seria uma violação dos termos da OpenAI. (É claro que a OpenAI está sendo processada por várias partes por supostamente cometer infração de direitos autorais ao treinar seus modelos.)

Ainda assim, a DeepSeek moveu a agulha com modelos mais eficientes — e inovou. Lambert observou que, ao contrário do o1, o R1 revela seu “processo de pensamento” para os usuários. Lambert observou que alguns usuários confiam ou acreditam mais em modelos de raciocínio de IA quando veem seu processo interno, durante o qual eles “explicam seu trabalho”.

Agora, teremos que ver como os formuladores de políticas dos EUA e os laboratórios de IA respondem.

Fonte

Compartilhe esse conteúdo: