Quando o DeepSeek-R1 surgiu pela primeira vez, o medo predominante que abalou a indústria era que o raciocínio avançado pudesse ser alcançado com menos infraestrutura.
Como se viu, isso não é necessariamente o caso. Pelo menos, de acordo com a Together AI, a ascensão do DeepSeek e do raciocínio open-source teve o efeito exato oposto: em vez de reduzir a necessidade de infraestrutura, está aumentando-a.
Essa demanda crescente ajudou a impulsionar o crescimento da plataforma e dos negócios da Together AI. Hoje, a empresa anunciou uma rodada de financiamento da série B no valor de $305 milhões, liderada pela General Catalyst e co-liderada pela Prosperity7. A Together AI surgiu em 2023 com o objetivo de simplificar o uso de modelos de linguagem de código aberto (LLMs) por empresas. A empresa se expandiu em 2024 com a plataforma Together enterprise, que permite a implantação de IA em ambientes de nuvem privada virtual (VPC) e on-premises. Em 2025, a Together AI está expandindo sua plataforma mais uma vez com clusters de raciocínio e capacidades de IA agentiva.
A empresa afirma que sua plataforma de implantação de IA tem mais de 450.000 desenvolvedores registrados e que os negócios cresceram 6 vezes ao ano. Os clientes da empresa incluem empresas e startups de IA, como Krea AI, Captions e Pika Labs.
“Agora estamos atendendo modelos em todas as modalidades: linguagem e raciocínio, imagens, áudio e vídeo”, disse Vipul Prakash, CEO da Together AI, ao VentureBeat.
O enorme impacto que o DeepSeek-R1 está tendo na demanda por infraestrutura de IA
O DeepSeek-R1 foi extremamente disruptivo quando fez sua estreia, por várias razões – uma das quais foi a implicação de que um modelo de raciocínio open-source de ponta poderia ser construído e implantado com menos infraestrutura do que um modelo proprietário.
No entanto, Prakash explicou que a Together AI cresceu sua infraestrutura em parte para ajudar a suportar a demanda aumentada de cargas de trabalho relacionadas ao DeepSeek-R1.
“É um modelo bastante caro de rodar inferência”, disse ele. “Ele possui 671 bilhões de parâmetros e você precisa distribuí-lo em vários servidores. E como a qualidade é maior, geralmente há mais demanda no topo, o que significa que você precisa de mais capacidade.”
Além disso, ele observou que o DeepSeek-R1 geralmente tem requisições de longa duração que podem durar de dois a três minutos. A enorme demanda dos usuários pelo DeepSeek-R1 está ainda mais impulsionando a necessidade de mais infraestrutura.
Para atender a essa demanda, a Together AI lançou um serviço que chama de “clusters de raciocínio” que provisionam capacidade dedicada, variando de 128 a 2.000 chips, para rodar modelos com o melhor desempenho possível.
Como a Together AI está ajudando as organizações a usar IA de raciocínio
Existem várias áreas específicas onde a Together AI está vendo o uso de modelos de raciocínio. Estes incluem:
Agentes de codificação: Modelos de raciocínio ajudam a dividir problemas maiores em etapas.
Reduzindo alucinações: O processo de raciocínio ajuda a verificar as saídas dos modelos, reduzindo assim alucinações, que é importante para aplicações onde a precisão é crucial.
Melhorando modelos não-raciocínio: Os clientes estão destilando e melhorando a qualidade de modelos não-raciocínio.
Habilitando autoaperfeiçoamento: O uso de aprendizado por reforço com modelos de raciocínio permite que os modelos se autoaperfeiçoem recursivamente sem depender de grandes quantidades de dados rotulados por humanos.
IA agentiva também está impulsionando a demanda aumentada por infraestrutura de IA
A Together AI também está vendo um aumento na demanda por infraestrutura à medida que seus usuários adotam IA agentiva.
Prakash explicou que fluxos de trabalho agentivos, onde um único pedido do usuário resulta em milhares de chamadas de API para concluir uma tarefa, estão colocando mais demanda computacional na infraestrutura da Together AI.
Para ajudar a suportar cargas de trabalho de IA agentiva, a Together AI adquiriu recentemente a CodeSandbox, cuja tecnologia fornece máquinas virtuais (VMs) leves e de inicialização rápida para executar código arbitrário e seguro dentro da nuvem da Together AI, onde os modelos de linguagem também residem. Isso permite que a Together AI reduza a latência entre o código agentivo e os modelos que precisam ser chamados, melhorando o desempenho dos fluxos de trabalho agentivos.
A Nvidia Blackwell já está tendo um impacto
Todas as plataformas de IA estão enfrentando demandas crescentes.
Essa é uma das razões pelas quais a Nvidia continua lançando novos silícios que oferecem mais desempenho. O mais recente produto da Nvidia é o chip Blackwell, que já está sendo implantado na Together AI.
Prakash disse que os chips Nvidia Blackwell custam cerca de 25% a mais do que a geração anterior, mas oferecem 2X de desempenho. A plataforma GB 200 com chips Blackwell é particularmente adequada para treinamento e inferência de modelos de mistura de especialistas (MoE), que são treinados em vários servidores conectados por InfiniBand. Ele observou que os chips Blackwell também devem fornecer um aumento maior de desempenho para a inferência de modelos maiores, em comparação com modelos menores.
O cenário competitivo da IA agentiva
O mercado de plataformas de infraestrutura de IA é ferozmente competitivo.
A Together AI enfrenta concorrência tanto de provedores de nuvem estabelecidos quanto de startups de infraestrutura de IA. Todos os hyperscalers, incluindo Microsoft, AWS e Google, têm plataformas de IA. Também há uma categoria emergente de players focados em IA, como Groq e Samba Nova, que estão todos almejando uma fatia do lucrativo mercado.
A Together AI tem uma oferta de stack completo, incluindo infraestrutura de GPU com camadas de plataforma de software em cima. Isso permite que os clientes construam facilmente com modelos de código aberto ou desenvolvam seus próprios modelos na plataforma da Together AI. A empresa também tem um foco em pesquisa, desenvolvendo otimizações e tempos de execução acelerados para inferência e treinamento.
“Por exemplo, nós servimos o modelo DeepSeek-R1 a 85 tokens por segundo e a Azure o serve a 7 tokens por segundo”, disse Prakash. “Há uma lacuna bastante crescente no desempenho e no custo que podemos fornecer aos nossos clientes.