O próximo estágio da IA agente pode ser avaliação e monitoramento, à medida que as empresas desejam tornar os agentes que estão começando a implantar mais observáveis.
Embora os benchmarks de agentes de IA possam ser enganosos, há muito valor em ver se o agente está funcionando da maneira que desejam. Para isso, as empresas estão começando a oferecer plataformas onde os clientes podem testar agentes de IA ou avaliar seu desempenho.
A Salesforce lançou sua plataforma de avaliação de agentes, o Centro de Testes Agentforce, em um piloto limitado na quarta-feira. A disponibilidade geral é esperada para dezembro. O Centro de Testes permite que as empresas observem e prototipem agentes de IA para garantir que eles acessem os fluxos de trabalho e os dados de que precisam.
As novas capacidades do Centro de Testes incluem testes gerados por IA para o Agentforce, Sandboxes para o Agentforce e Data Cloud, e monitoramento e observabilidade para o Agentforce.
Os testes gerados por IA permitem que as empresas usem modelos de IA para gerar “centenas de interações sintéticas” para testar se os agentes respondem da maneira que as empresas desejam. Como o nome sugere, os sandboxes oferecem um ambiente isolado para testar agentes, refletindo melhor como o agente funcionará para elas. O monitoramento e a observabilidade permitem que as empresas tragam um histórico de auditoria para o sandbox quando os agentes forem para a produção.
Patrick Stokes, vice-presidente executivo de produtos e marketing de indústrias da Salesforce, disse ao VentureBeat que o Centro de Testes faz parte de uma nova classe de agentes que a empresa chama de Gerenciamento do Ciclo de Vida do Agente.
“Estamos posicionando o que acreditamos ser uma nova subcategoria importante de agentes”, disse Stokes. “Quando dizemos ciclo de vida, queremos dizer tudo, desde a gênese até o desenvolvimento, passando pela implantação e, em seguida, iterações da sua implantação à medida que você avança.”
Stokes disse que, no momento, o Centro de Testes não possui insights específicos de fluxo de trabalho onde os desenvolvedores podem ver as escolhas específicas na API, dados ou modelo que os agentes usaram. No entanto, a Salesforce coleta esse tipo de dado em sua Camada de Confiança Einstein.
“O que estamos fazendo é construir ferramentas para desenvolvedores para expor esses metadados aos nossos clientes, para que eles possam realmente usá-los para construir melhor seus agentes”, disse Stokes.
A Salesforce está apostando em agentes de IA, concentrando muita energia em sua oferta de agentes Agentforce. Os clientes da Salesforce podem usar agentes pré-configurados ou construir agentes personalizados no Agentforce para se conectar às suas instâncias.
Avaliação de agentes
Os agentes de IA tocam em muitos pontos de uma organização, e como bons ecossistemas de agentes visam automatizar uma grande parte dos fluxos de trabalho, garantir que funcionem bem se torna essencial.
Se um agente decidir acessar a API errada, isso pode significar um desastre para um negócio. Os agentes de IA têm natureza estocástica, como os modelos que os alimentam, e consideram cada probabilidade potencial antes de chegar a um resultado. Stokes disse que a Salesforce testa os agentes submetendo-os a versões das mesmas declarações ou perguntas. Suas respostas são pontuadas como aprovadas ou reprovadas, permitindo que o agente aprenda e evolua dentro de um ambiente seguro que os desenvolvedores humanos podem controlar.
Plataformas que ajudam as empresas a avaliar agentes de IA estão rapidamente se tornando um novo tipo de oferta de produto. Em junho, a empresa de experiência do cliente de IA Sierra lançou um benchmark de agentes de IA chamado TAU-bench para analisar o desempenho de agentes conversacionais. A empresa de automação UiPath lançou sua plataforma Agent Builder em outubro, que também ofereceu um meio de avaliar o desempenho do agente antes da implantação completa.
Testar aplicações de IA não é novidade. Além de avaliar o desempenho dos modelos, muitos repositórios de modelos de IA, como AWS Bedrock e Microsoft Azure, já permitem que os clientes testem modelos base em um ambiente controlado para ver qual funciona melhor para seus casos de uso.