A startup de computação fotônica Lightmatter arrecadou $400 milhões para abrir uma das gargalos dos data centers modernos. A camada de interconexão óptica da empresa permite que centenas de GPUs trabalhem de forma síncrona, simplificando o trabalho caro e complexo de treinar e executar modelos de IA.
O crescimento da IA e suas imensas necessidades computacionais correspondentes supercarregaram a indústria de data centers, mas não é tão simples quanto conectar mais mil GPUs. Como os especialistas em computação de alto desempenho sabem há anos, não importa quão rápido cada nó do seu supercomputador seja se esses nós estiverem ociosos metade do tempo esperando que os dados cheguem.
As camadas de interconexão são realmente o que transforma racks de CPUs e GPUs em uma única máquina gigante — então, segue-se que quanto mais rápida a interconexão, mais rápido o data center. E parece que a Lightmatter constrói a camada de interconexão mais rápida de longe, usando os chips fotônicos que vem desenvolvendo desde 2018.
“Os hyperscalers sabem que se quiserem um computador com um milhão de nós, não podem fazer isso com os switches tradicionais da Cisco. Uma vez que você sai do rack, você passa de uma interconexão de alta densidade para basicamente um copo em uma corda”, disse Nick Harris, CEO e fundador da empresa, ao TechCrunch. (Você pode ver uma breve palestra que ele deu resumindo esse problema aqui.)
O estado da arte, ele disse, é o NVLink e particularmente a plataforma NVL72, que conecta 72 unidades Nvidia Blackwell em um rack, capaz de um máximo de 1,4 exaFLOPs em precisão FP4. Mas nenhum rack é uma ilha, e todo esse poder computacional precisa ser extraído através de 7 terabits de rede “scale up”. Parece muito, e é, mas a incapacidade de conectar essas unidades mais rapidamente entre si e a outros racks é uma das principais barreiras para melhorar o desempenho.
“Para um milhão de GPUs, você precisa de múltiplas camadas de switches. e isso adiciona um enorme ônus de latência”, disse Harris. “Você tem que ir de elétrico para óptico, de elétrico para óptico… a quantidade de energia que você usa e o tempo que você espera é enorme. E isso piora dramaticamente em clusters maiores.”
Então, o que a Lightmatter está trazendo para a mesa? Fibra. Muita fibra, roteada através de uma interface puramente óptica. Com até 1,6 terabits por fibra (usando múltiplas cores), e até 256 fibras por chip… bem, digamos que 72 GPUs a 7 terabits começam a parecer positivamente antiquadas.
“A fotônica está chegando muito mais rápido do que as pessoas pensavam — as pessoas têm lutado para fazê-la funcionar por anos, mas nós chegamos lá”, disse Harris. “Depois de sete anos de um trabalho absolutamente extenuante”, acrescentou.
A interconexão fotônica atualmente disponível da Lightmatter faz 30 terabits, enquanto a fiação óptica em rack é capaz de permitir que 1.024 GPUs trabalhem de forma síncrona em seus próprios racks especialmente projetados. Caso você esteja se perguntando, os dois números não aumentam por fatores semelhantes porque muito do que precisaria ser conectado a outro rack pode ser feito no rack em um cluster de mil GPUs. (E, de qualquer forma, 100 terabits está a caminho.)
O mercado para isso é enorme, apontou Harris, com todas as principais empresas de data center, desde a Microsoft até a Amazon, passando por novos entrantes como xAI e OpenAI, mostrando um apetite sem fim por computação. “Eles estão conectando edifícios! Eu me pergunto por quanto tempo eles conseguem manter isso”, disse ele.
Muitos desses hyperscalers já são clientes, embora Harris não tenha nomeado nenhum. “Pense na Lightmatter um pouco como uma fundição, como a TSMC”, disse ele. “Nós não escolhemos favoritos ou anexamos nosso nome às marcas de outras pessoas. Nós fornecemos um roteiro e uma plataforma para eles — apenas ajudando a aumentar o tamanho do mercado.”
Mas, ele acrescentou de forma insinuante, “você não quadruplica sua avaliação sem alavancar essa tecnologia”, talvez uma alusão à recente rodada de financiamento da OpenAI que avaliou a empresa em $157 bilhões, mas o comentário poderia ser igualmente sobre sua própria empresa.
Essa rodada de $400 milhões valoriza a empresa em $4,4 bilhões, um múltiplo semelhante à sua avaliação em meados de 2023 que “nos torna de longe a maior empresa de fotônica. Então isso é legal!”, disse Harris. A rodada foi liderada pela T. Rowe Price Associates, com participação de investidores existentes como a Fidelity Management and Research Company e GV.
O que vem a seguir? Além da interconexão, a empresa está desenvolvendo novos substratos para chips para que possam realizar tarefas de rede ainda mais íntimas, se você quiser, usando luz.
Harris especulou que, além da interconexão, a potência por chip será o grande diferencial no futuro. “Daqui a dez anos, você terá chips em escala de wafer de todos — não há outra maneira de melhorar o desempenho por chip”, disse ele. A Cerebras está, é claro, já trabalhando nisso, embora se eles conseguirão capturar o verdadeiro valor desse avanço neste estágio da tecnologia seja uma questão em aberto.
Mas para Harris, vendo a indústria de chips se deparar com uma parede, ele planeja estar pronto e esperando com o próximo passo. “Daqui a dez anos, a interconexão é a Lei de Moore”, disse ele.