Enquanto o PuppyGraph tem menos de um ano, já está testemunhando sucesso com várias empresas, incluindo Coinbase, Clarivate, Dawn Capital e Prevelant AI.
As empresas continuam a investir pesadamente em análises avançadas e grandes modelos de linguagem (LLMs), a tecnologia de grafo se tornou uma das abordagens mais favorecidas para configurar a pilha de dados. Ela permite que os usuários entendam relacionamentos complexos em seus conjuntos de dados, que muitas vezes não são aparentes em bancos de dados relacionais tradicionais.
No entanto, manter e consultar bancos de dados de grafo juntamente com bancos de dados relacionais tradicionais é bastante complicado (e caro). Hoje, o PuppyGraph, uma startup com sede em São Francisco fundada por ex-funcionários do Google e LinkedIn, levantou US$ 5 milhões para resolver essa lacuna com o primeiro e único motor de consulta zero-ETL do mundo. O motor permite que os usuários consultem seus dados relacionais existentes como um grafo unificado, sem a necessidade de um banco de dados de grafo separado e longos processos de extração-transformação-carga (ETL).
O motor foi lançado em março de 2024 e já está sendo utilizado por várias empresas para simplificar a análise de dados. Sua edição para desenvolvedores, que é gratuita para sempre, está testemunhando um aumento de 70% nas downloads mês a mês.
A necessidade do PuppyGraph
Uma arquitetura de banco de dados de grafo espelha o esboço em um quadro branco, armazenando todas as informações em nós (representando entidades, pessoas e conceitos) com contexto relevante e conexões entre eles. Usando essa estrutura de grafo, os usuários podem identificar padrões e relacionamentos complexos que podem não ser facilmente aparentes em bancos de dados relacionais tradicionais (consultados via SQL) e implantar algoritmos para rapidamente habilitar casos de uso como IA/ML, detecção de fraudes, mapeamento da jornada do cliente e gerenciamento de riscos para redes.
No esquema atual, a única maneira de adotar tecnologias de grafo é configurar um banco de dados de grafo nativo separado e mantê-lo sincronizado com o banco de dados de origem. A tarefa parece fácil, mas se torna muito complicada, com as equipes tendo que configurar pipelines ETL complexos e intensivos em recursos para migrar seus conjuntos de dados para o armazenamento de grafo. Isso pode facilmente custar milhões e levar meses, impedindo os usuários de executar consultas comerciais críticas.
Sem mencionar que, uma vez que o banco de dados está configurado, eles também têm que gerenciá-lo continuamente, o que aumenta ainda mais o custo e cria problemas de escalabilidade a longo prazo.
Para abordar essas lacunas, ex-funcionários do Google e LinkedIn, Weimo Liu, Lei Huang e Danfeng Xu, se reuniram e fundaram o PuppyGraph. A ideia era fornecer às equipes uma maneira de consultar seus bancos de dados relacionais existentes e lagos de dados como grafos, sem migrações de dados.
Dessa forma, os mesmos dados que são analisados com consultas SQL poderiam ser analisados como um grafo, levando a um acesso mais rápido a insights. Isso pode ser particularmente útil para casos em que os dados estão profundamente conectados com relacionamentos de múltiplos níveis, como na cadeia de suprimentos ou cibersegurança.
“Quanto mais profundo o nível, mais complexa a consulta se torna em uma consulta SQL tradicional. Isso ocorre porque cada nível adicional requer uma operação de junção de tabela adicional, complicando a complexidade e potencialmente diminuindo drasticamente o desempenho da consulta… Em contraste, a consulta de grafo lida com esses relacionamentos de múltiplos níveis de forma muito mais eficiente. Elas são projetadas para percorrer rapidamente essas conexões usando caminhos através do grafo, independentemente da profundidade da conexão”, disse Zhenni Wu, que se juntou à equipe fundadora do PuppyGraph, ao VentureBeat.
Wu disse que o PuppyGraph elimina a necessidade de extensas configurações de ETL, permitindo ‘implantação para consulta’ em apenas cerca de 10 minutos. Tudo o que o usuário precisa fazer é conectar a ferramenta à sua fonte de dados de escolha. Uma vez feito isso, ela cria automaticamente um esquema de grafo e consulta as tabelas em modelos de grafo. Além disso, o design distribuído do motor permite que ele lide com conjuntos de dados extremamente grandes e consultas complexas de múltiplos saltos.
Ele pode se conectar a todos os lagos de dados principais, incluindo Google BigQuery e Databricks, para executar análises de grafo aceleradas – mantendo os custos baixos ao mesmo tempo.
“A separação da arquitetura de armazenamento e computação significa que o baixo custo é uma das maiores vantagens do PuppyGraph. Não há custo de armazenamento porque o motor consulta diretamente os dados dos lagos/armazéns de dados existentes dos usuários. Ele fornece a flexibilidade de escalar recursos computacionais conforme necessário, permitindo ajustes para lidar com cargas de trabalho flutuantes de forma eficiente, sem arriscar contenção de recursos ou degradação de desempenho”, acrescentou Wu.
Impacto significativo nos primeiros dias
Embora a empresa tenha menos de um ano, já está testemunhando sucesso com várias empresas, incluindo Coinbase, Clarivate, Dawn Capital e Prevelant AI.
Em um caso, uma empresa fez a transição para o PuppyGraph a partir de um sistema de banco de dados de grafo legado e conseguiu reduzir seu custo total de propriedade em mais de 80%. Uma plataforma de negociação financeira líder conseguiu realizar uma consulta de caminho de 5 saltos entre a conta A e a conta B em cerca de 1 bilhão de arestas em menos de 3 segundos.
Antes do PuppyGraph, sua solução baseada em SQL auto-construída não conseguia sequer consultar além de uma consulta de 3 saltos e tinha problemas de tempo limite em lotes.
Com esse financiamento, a empresa planeja acelerar seu desenvolvimento de produtos, expandir sua equipe e aumentar sua presença no mercado, levando o motor de consulta de grafo zero-ETL para mais organizações em todo o mundo.
De acordo com a Gartner, o mercado para tecnologias de grafo crescerá para US$ 3,2 bilhões até 2025, com um CAGR de 28,1%. Outros players na categoria incluem Neo4j, AWS Neptune, Aerospike e ArrangoDB.