LangChain mostra que agentes de IA ainda não estão em nível humano porque estão sobrecarregados por ferramentas

Em um momento em que os agentes de IA mostraram promessa, as organizações tiveram que lidar com a questão de se um único agente era suficiente ou se deveriam investir na construção de uma rede de múltiplos agentes que tocassem mais pontos em sua organização.

A empresa de estruturação de orquestração LangChain buscou se aproximar de uma resposta para essa pergunta. Ela submeteu um agente de IA a vários experimentos que descobriram que os agentes únicos têm um limite de contexto e ferramentas antes que seu desempenho comece a degradar. Esses experimentos podem levar a uma melhor compreensão da arquitetura necessária para manter agentes e sistemas de múltiplos agentes.

Em uma postagem no blog, a LangChain detalhou um conjunto de experimentos que realizou com um único agente ReAct e avaliou seu desempenho. A principal questão que a LangChain esperava responder era: “Em que ponto um único agente ReAct se torna sobrecarregado com instruções e ferramentas, e, subsequentemente, vê a queda de desempenho?”

A LangChain escolheu usar a estrutura do agente ReAct porque é “uma das arquiteturas agenticas mais básicas.”

Embora a avaliação do desempenho agentico possa muitas vezes levar a resultados enganosos, a LangChain escolheu limitar o teste a duas tarefas facilmente quantificáveis de um agente: responder perguntas e agendar reuniões.

“Existem muitos benchmarks existentes para uso e chamada de ferramentas, mas para os propósitos deste experimento, queríamos avaliar um agente prático que realmente usamos,” escreveu a LangChain. “Este agente é nosso assistente de email interno, que é responsável por dois domínios principais de trabalho – responder a solicitações de reuniões e apoiar os clientes com suas perguntas.”

Parâmetros do experimento da LangChain

A LangChain usou principalmente agentes ReAct pré-construídos por meio de sua plataforma LangGraph. Esses agentes apresentaram chamadas de ferramentas de modelos de linguagem de grande porte (LLMs) que se tornaram parte do teste de referência. Esses LLMs incluíram o Claude 3.5 Sonnet da Anthropic, o Llama-3.3-70B da Meta e um trio de modelos da OpenAI, GPT-4o, o1 e o3-mini.

A empresa dividiu os testes para avaliar melhor o desempenho do assistente de email nas duas tarefas, criando uma lista de etapas a serem seguidas. Começou com as capacidades de suporte ao cliente do assistente de email, que examinam como o agente aceita um email de um cliente e responde com uma resposta.

A LangChain primeiro avaliou a trajetória de chamada de ferramentas, ou as ferramentas que um agente utiliza. Se o agente seguisse a ordem correta, ele passaria no teste. Em seguida, os pesquisadores pediram ao assistente que respondesse a um email e usaram um LLM para julgar seu desempenho.

Para o segundo domínio de trabalho, o agendamento de calendário, a LangChain focou na capacidade do agente de seguir instruções.

“Em outras palavras, o agente precisa lembrar instruções específicas fornecidas, como exatamente quando deve agendar reuniões com diferentes partes,” escreveram os pesquisadores.

Sobrecarga do agente

Depois de definir os parâmetros, a LangChain começou a estressar e sobrecarregar o agente assistente de email.

Ela definiu 30 tarefas para agendamento de calendário e suporte ao cliente. Essas foram executadas três vezes (totalizando 90 execuções). Os pesquisadores criaram um agente de agendamento de calendário e um agente de suporte ao cliente para avaliar melhor as tarefas.

“O agente de agendamento de calendário só tem acesso ao domínio de agendamento de calendário, e o agente de suporte ao cliente só tem acesso ao domínio de suporte ao cliente,” explicou a LangChain.

Os pesquisadores então adicionaram mais tarefas e ferramentas de domínio aos agentes para aumentar o número de responsabilidades. Essas poderiam variar de recursos humanos, a garantia de qualidade técnica, a questões legais e de conformidade, e uma série de outras áreas.

Degradação de instruções de agente único

Após a realização das avaliações, a LangChain descobriu que os agentes únicos frequentemente ficavam muito sobrecarregados quando instruídos a fazer muitas coisas. Eles começaram a esquecer de chamar ferramentas ou não conseguiram responder a tarefas quando dadas mais instruções e contextos.

A LangChain descobriu que os agentes de agendamento de calendário usando GPT-4o “desempenharam pior que Claude-3.5-sonnet, o1 e o3 em vários tamanhos de contexto, e o desempenho caiu mais acentuadamente do que os outros modelos quando um contexto maior foi fornecido.” O desempenho dos agendadores de calendário GPT-4o caiu para 2% quando os domínios aumentaram para pelo menos sete.

Outros modelos não se saíram muito melhor. O Llama-3.3-70B esqueceu de chamar a ferramenta send_email, “então falhou em todos os casos de teste.”

Apenas Claude-3.5-sonnet, o1 e o3-mini lembraram de chamar a ferramenta, mas Claude-3.5-sonnet teve um desempenho pior do que os dois outros modelos da OpenAI. No entanto, o desempenho de o3-mini se degrada uma vez que domínios irrelevantes são adicionados às instruções de agendamento.

O agente de suporte ao cliente pode chamar mais ferramentas, mas para este teste, a LangChain disse que Claude-3.5-mini teve um desempenho tão bom quanto o o3-mini e o o1. Também apresentou uma queda de desempenho mais rasa quando mais domínios foram adicionados. Quando a janela de contexto se estende, no entanto, o modelo Claude apresenta um desempenho pior.

O GPT-4o também teve o pior desempenho entre os modelos testados.

“Vimos que à medida que mais contexto era fornecido, o seguimento de instruções se tornava pior. Algumas de nossas tarefas foram projetadas para seguir instruções específicas de nicho (por exemplo, não realizar uma determinada ação para clientes baseados na UE),” observou a LangChain. “Descobrimos que essas instruções seriam seguidas com sucesso por agentes com menos domínios, mas à medida que o número de domínios aumentava, essas instruções eram mais frequentemente esquecidas, e as tarefas, subseqüentemente, falhavam.”

A empresa disse que está explorando como avaliar arquiteturas de múltiplos agentes usando o mesmo método de sobrecarga de domínio.

A LangChain já está investida no desempenho dos agentes, já que introduziu o conceito de “agentes ambientes,” ou agentes que operam em segundo plano e são acionados por eventos específicos. Esses experimentos poderiam facilitar a descoberta de como garantir o desempenho agentico.

Fonte

Compartilhe esse conteúdo: