O novo paradigma: Arquitetando a pilha de dados para agentes de IA

O lançamento do ChatGPT há dois anos foi nada menos que um marco na pesquisa em IA. Isso deu um novo significado à IA voltada para o consumidor e incentivou as empresas a explorar como poderiam aproveitar o GPT ou modelos semelhantes em seus respectivos casos de uso. Avançando para 2024: existe um ecossistema florescente de modelos de linguagem, que tanto startups ágeis quanto grandes empresas estão aproveitando em conjunto com abordagens como geração aumentada por recuperação (RAG) para copilotos internos e sistemas de busca de conhecimento.

Os casos de uso cresceram multifacetados e o investimento em iniciativas de IA generativa de nível empresarial também. Afinal, espera-se que a tecnologia adicione de 2,6 trilhões a 4,4 trilhões de dólares anualmente à economia global. Mas, aqui está a questão: o que vimos até agora é apenas a primeira onda da IA generativa.

Nos últimos meses, várias startups e organizações de grande escala – como Salesforce e SAP – começaram a se mover para a próxima fase dos chamados “sistemas agentes”. Esses agentes fazem a transição da IA empresarial de um sistema baseado em prompts capaz de alavancar o conhecimento interno (via RAG) e responder a perguntas críticas de negócios para uma entidade autônoma orientada a tarefas. Eles podem tomar decisões com base em uma determinada situação ou conjunto de instruções, criar um plano de ação passo a passo e, em seguida, executar esse plano dentro de ambientes digitais rapidamente usando ferramentas online, APIs, etc.

A transição para agentes de IA marca uma mudança significativa na automação que conhecemos e pode facilmente dar às empresas um exército de colegas virtuais prontos para implantar que podem lidar com tarefas – seja reservar um bilhete ou mover dados de um banco de dados para outro – e economizar uma quantidade significativa de tempo. A Gartner estima que até 2028, 33% das aplicações de software empresarial incluirão agentes de IA, em comparação com menos de 1% no presente, permitindo que 15% das decisões do dia a dia sejam tomadas de forma autônoma.

Mas, se os agentes de IA estão a caminho de ser um grande negócio? Como uma empresa pode trazê-los para sua pilha de tecnologia, sem comprometer a precisão? Ninguém quer um sistema movido por IA que não compreenda as nuances do negócio (ou domínio específico) e acabe executando ações incorretas.

A resposta, como diz Gerrit Kazmaier, VP e GM de análise de dados do Google Cloud, reside em uma estratégia de dados cuidadosamente elaborada.

“A pipeline de dados deve evoluir de um sistema de armazenamento e processamento de dados para um ‘sistema para criar conhecimento e compreensão’. Isso requer uma mudança de foco de simplesmente coletar dados para curar, enriquecer e organizar esses dados de uma forma que capacite os LLMs a funcionarem como parceiros de negócios confiáveis e perspicazes”, disse Kazmaier ao VentureBeat.

Construindo a pipeline de dados para agentes de IA

Historicamente, as empresas confiavam pesadamente em dados estruturados – organizados na forma de tabelas – para análise e tomada de decisão. Era os 10% de dados realmente acessíveis que tinham. Os 90% restantes eram “escuros”, armazenados em silos em formatos variados, como PDFs e vídeos. No entanto, quando a IA entrou em ação, esses dados não estruturados, não aproveitados se tornaram um depósito de valor instantâneo, permitindo que as organizações alimentassem uma variedade de casos de uso, incluindo aplicações de IA generativa, como chatbots e sistemas de busca.

A maioria das organizações hoje já possui pelo menos uma plataforma de dados (muitas com capacidades de banco de dados vetorial) em vigor para reunir todos os dados estruturados e não estruturados em um só lugar para alimentar aplicações posteriores. O surgimento de agentes de IA impulsionados por LLM adiciona mais uma aplicação a esse ecossistema.

Assim, em essência, muitas coisas permanecem inalteradas. As equipes não precisam configurar sua pilha de dados do zero, mas adaptá-la com foco em certos elementos-chave para garantir que os agentes que desenvolvem compreendam as nuances de sua indústria de negócios, as relações intrincadas dentro de seus conjuntos de dados e a linguagem semântica específica de suas operações.

De acordo com Kazmaier, a maneira ideal de fazer isso acontecer é entender que dados, modelos de IA e o valor que eles entregam (os agentes) são parte da mesma cadeia de valor e precisam ser construídos de forma holística. Isso significa optar por uma plataforma unificada que reúna todos os dados – de texto e imagens a áudio e vídeo – em um só lugar e tenha uma camada semântica, utilizando gráficos de conhecimento dinâmicos para capturar relações em evolução, a métrica lógica de negócios relevante necessária para construir agentes de IA que compreendam a organização e os contextos específicos do domínio para tomar ações.

“Um elemento crucial para construir agentes de IA verdadeiramente inteligentes é uma robusta camada semântica. É como dar a esses agentes um dicionário e um tesouro de palavras, permitindo que eles compreendam não apenas os dados em si, mas o significado e as relações por trás deles… Trazer essa camada semântica diretamente para a nuvem de dados, como estamos fazendo com LookML e BigQuery, pode ser uma mudança radical”, explicou ele.

Enquanto as organizações podem optar por abordagens manuais para gerar semântica de negócios e criar esta camada crucial de inteligência, Gerrit observa que o processo pode ser facilmente automatizado com a ajuda da IA.

“É aqui que a mágica realmente acontece. Ao combinar essas ricas semânticas com a forma como a empresa tem utilizado seus dados e outros sinais contextuais em um gráfico de conhecimento dinâmico, podemos criar uma rede inteligente adaptativa e ágil continuamente. É como uma base de conhecimento viva que evolui em tempo real, alimentando novas aplicações impulsionadas por IA e desbloqueando níveis sem precedentes de insight e automação”, explicou ele.

Porém, treinar LLMs que alimentam agentes na camada semântica (aprendizado contextual) é apenas um aspecto do quebra-cabeça. O agente de IA também deve compreender como as coisas realmente funcionam no ambiente digital em questão, cobrindo aspectos que nem sempre são documentados ou capturados em dados. É aqui que a construção de observabilidade e fortes ciclos de reforço se torna útil, de acordo com Gevorg Karapetyan, o CTO e co-fundador da startup de agentes de IA Hercules AI.

Falando com o VentureBeat no WCIT 2024, Karapetyan disse que eles estão adotando exatamente essa abordagem para romper a última milha com os agentes de IA para seus clientes.

“Primeiro, fazemos um ajuste fino contextual, com base em dados pessoais do cliente e dados sintéticos, para que o agente tenha a base de conhecimento geral e de domínio. Depois, com base em como ele começa a trabalhar e interagir com seu respectivo ambiente (dados históricos), nós o melhoramos ainda mais. Dessa forma, eles aprendem a lidar com condições dinâmicas em vez de um mundo perfeito”, explicou ele.

Qualidade de dados, governança e segurança permanecem tão importantes

Com a camada semântica e o ciclo de reforço baseado em dados históricos em vigor, as organizações podem ativar sistemas de IA agentes fortes. No entanto, é importante notar que construir uma pilha de dados dessa maneira não significa subestimar as melhores práticas habituais.

Isso essencialmente significa que a plataforma utilizada deve ingerir e processar dados em tempo real de todas as principais fontes (capacitando os agentes a se adaptarem, aprenderem e agirem instantaneamente de acordo com a situação), ter sistemas em vigor para garantir a qualidade/riqueza dos dados e, em seguida, ter políticas robustas de acesso, governança e segurança em vigor para garantir o uso responsável do agente.

“A governança, o controle de acesso e a qualidade dos dados se tornam na verdade mais importantes na era dos agentes de IA. As ferramentas para determinar quais serviços têm acesso a quais dados se tornam o método para garantir que os sistemas de IA se comportem em conformidade com as regras de privacidade de dados. A qualidade dos dados, por sua vez, determina quão bem (ou quão mal) um agente pode executar uma tarefa”, disse Naveen Rao, VP de IA na Databricks, ao VentureBeat.

Ele disse que perder de vista esses pontos de qualquer maneira pode ser “desastroso” tanto para a reputação da empresa quanto para seus clientes finais.

“Não há agente, não importa quão alta seja a qualidade ou quão impressionantes sejam os resultados, que deve ver a luz do dia se os desenvolvedores não tiverem confiança de que apenas as pessoas certas podem acessar as informações/capacidades de IA corretas. É por isso que começamos com a camada de governança com o Unity Catalog e construímos nossa pilha de IA em cima disso”, enfatizou Rao.

O Google Cloud, por sua vez, está usando IA para lidar com parte do trabalho manual que deve ser feito nas pipelines de dados. Por exemplo, a empresa está usando agentes de dados inteligentes para ajudar as equipes a descobrir rapidamente, limpar e preparar seus dados para IA, rompendo silos de dados e garantindo qualidade e consistência.

“Integrando IA diretamente na infraestrutura de dados, podemos capacitar as empresas a desbloquear o verdadeiro potencial da IA generativa e acelerar sua inovação de dados”, disse Kazmaier.

Dito isso, embora o surgimento dos agentes de IA represente uma mudança transformadora em como as empresas podem aproveitar a automação e a inteligência para simplificar operações, o sucesso desses projetos dependerá diretamente de uma pilha de dados bem arquitetada. À medida que as organizações evoluem suas estratégias de dados, aquelas que priorizam a integração perfeita de uma camada semântica com um foco específico na qualidade dos dados, acessibilidade, governança e segurança estarão melhor posicionadas para desbloquear todo o potencial dos agentes de IA e liderar a próxima onda de inovação empresarial.

A longo prazo, esses esforços, combinados com os avanços nos modelos de linguagem subjacentes, devem marcar um crescimento de quase 45% para o mercado de agentes de IA, impulsionando-o de 5,1 bilhões de dólares em 2024 para 47,1 bilhões de dólares até 2030.

Fonte

Compartilhe esse conteúdo: