As empresas estão otimistas em relação a aplicações agentivas que podem entender instruções e intenções dos usuários para realizar diferentes tarefas em ambientes digitais. É a próxima onda na era da IA generativa, mas muitas organizações ainda lutam com baixos rendimentos em seus modelos. Hoje, a Katanemo, uma startup que constrói infraestrutura inteligente para aplicações nativas de IA, deu um passo para resolver esse problema ao liberar o Arch-Function. Esta é uma coleção de modelos de linguagem de grande escala (LLMs) de última geração que prometem velocidades ultrarrápidas em tarefas de chamada de função críticas para fluxos de trabalho agentivos.
Mas, quão rápido estamos falando aqui? De acordo com Salman Paracha, o fundador e CEO da Katanemo, os novos modelos abertos são quase 12 vezes mais rápidos que o GPT-4 da OpenAI. Eles até superam as ofertas da Anthropic, tudo isso enquanto oferecem economias significativas de custo ao mesmo tempo.
Essa mudança pode facilmente abrir caminho para agentes super-responsivos que poderiam lidar com casos de uso específicos de domínio sem pesar no bolso das empresas. De acordo com a Gartner, até 2028, 33% das ferramentas de software empresarial usarão IA agentiva, em comparação com menos de 1% atualmente, permitindo que 15% das decisões do dia a dia sejam tomadas de forma autônoma.
O que exatamente o Arch-Function traz à mesa?
Uma semana atrás, a Katanemo liberou o Arch, um gateway de prompt inteligente que usa LLMs especializados (sub-bilionários) para lidar com todas as tarefas críticas relacionadas ao manuseio e processamento de prompts. Isso inclui detectar e rejeitar tentativas de jailbreak, chamar inteligentemente APIs “backend” para atender ao pedido do usuário e gerenciar a observabilidade de prompts e interações de LLM de maneira centralizada.
A oferta permite que os desenvolvedores construam aplicativos de IA generativa rápidos, seguros e personalizados em qualquer escala. Agora, como o próximo passo nesse trabalho, a empresa liberou parte da “inteligência” por trás do gateway na forma de LLMs Arch-Function.
Como o fundador coloca, esses novos LLMs – construídos sobre o Qwen 2.5 com 3B e 7B parâmetros – são projetados para lidar com chamadas de função, o que essencialmente permite que eles interajam com ferramentas e sistemas externos para realizar tarefas digitais e acessar informações atualizadas.
Usando um determinado conjunto de prompts em linguagem natural, os modelos Arch-Function podem entender assinaturas de função complexas, identificar parâmetros necessários e produzir saídas de chamadas de função precisas. Isso permite que eles executem qualquer tarefa necessária, seja uma interação com API ou um fluxo de trabalho automatizado em backend. Isso, por sua vez, pode permitir que as empresas desenvolvam aplicações agentivas.
“Em termos simples, o Arch-Function ajuda você a personalizar seus aplicativos LLM chamando operações específicas de aplicação acionadas por prompts de usuário. Com o Arch-Function, você pode construir fluxos de trabalho ‘agentivos’ rápidos adaptados a casos de uso específicos de domínio – desde a atualização de reivindicações de seguros até a criação de campanhas publicitárias por meio de prompts. O Arch-Function analisa prompts, extrai informações críticas deles, engaja em conversas leves para coletar parâmetros que estão faltando do usuário e faz chamadas de API para que você possa se concentrar em escrever a lógica de negócios”, explicou Paracha.
Velocidade e custo são os maiores destaques
Embora a chamada de função não seja uma capacidade nova (muitos modelos a suportam), como os LLMs Arch-Function lidam com isso é o destaque. De acordo com detalhes compartilhados por Paracha no X, os modelos superam ou igualam modelos de ponta, incluindo os da OpenAI e da Anthropic, em termos de qualidade, mas oferecem benefícios significativos em termos de velocidade e economia de custos.
Por exemplo, em comparação com o GPT-4, o Arch-Function-3B entrega aproximadamente 12x de melhoria de rendimento e enormes 44x de economia de custos. Resultados semelhantes também foram vistos em relação ao GPT-4o e Claude 3.5 Sonnet. A empresa ainda não compartilhou benchmarks completos, mas Paracha observou que a melhoria de rendimento e as economias de custo foram vistas quando um GPU Nvidia L40S foi usado para hospedar o modelo de 3B parâmetros.
“O padrão é usar o V100 ou A100 para executar/benchmark LLMS, e o L40S é uma instância mais barata do que ambas. Claro, esta é nossa versão quantizada, com qualidade de desempenho semelhante”, ele notou.
Com esse trabalho, as empresas podem ter uma família de LLMs de chamada de função mais rápida e acessível para alimentar suas aplicações agentivas. A empresa ainda não compartilhou estudos de caso de como esses modelos estão sendo utilizados, mas um desempenho de alto rendimento com baixos custos torna uma combinação ideal para casos de uso em tempo real e produção, como processar dados recebidos para otimização de campanhas ou enviar e-mails para clientes.
De acordo com a Markets and Markets, globalmente, o mercado de agentes de IA deve crescer com um CAGR de quase 45% para se tornar uma oportunidade de $47 bilhões até 2030.