Organizações interessadas em implantar agentes de IA devem primeiro ajustá-los, especialmente em fluxos de trabalho que muitas vezes parecem repetitivos. Enquanto algumas organizações desejam agentes que realizem apenas um tipo de tarefa em um fluxo de trabalho, às vezes os agentes precisam ser trazidos para novos ambientes com a esperança de que eles se adaptem.
Pesquisadores da Universidade de Correios e Telecomunicações de Pequim revelaram um novo método, AgentRefine. Ele ensina os agentes a se autocorrigir, levando a agentes de IA mais generalizados e adaptativos.
Os pesquisadores disseram que os métodos de ajuste atuais limitam os agentes às mesmas tarefas de seu conjunto de dados de treinamento, ou tarefas “mantidas”, e não se saem tão bem em ambientes “mantidos fora” ou novos. Ao seguir apenas as regras estabelecidas pelos dados de treinamento, os agentes treinados com essas estruturas teriam dificuldades em “aprender” com seus erros e não podem ser transformados em agentes gerais trazidos para novos fluxos de trabalho.
Para combater essa limitação, o AgentRefine visa criar conjuntos de dados de treinamento de agentes mais generalizados que permitem ao modelo aprender com erros e se encaixar em novos fluxos de trabalho. Em um novo artigo, os pesquisadores afirmaram que o objetivo do AgentRefine é “desenvolver dados de ajuste de agentes generalizados e estabelecer a correlação entre a generalização de agentes e a auto-refinamento”. Se os agentes se autocorrigirem, eles não perpetuarão nenhum erro que aprenderam e trarão esses mesmos erros para outros ambientes nos quais são implantados.
“Descobrimos que o ajuste de agentes nos dados de auto-refinamento melhora o agente para explorar ações mais viáveis enquanto enfrenta situações ruins, resultando em uma melhor generalização para novos ambientes de agentes”, escrevem os pesquisadores.
Treinamento de agentes de IA inspirado em D&D
Seguindo seu exemplo do jogo de mesa Dungeons & Dragons, os pesquisadores criaram personas, roteiros para o agente seguir e desafios. E sim, há um Mestre do Jogo (DM).
Eles dividiram a construção de dados para o AgentRefine em três áreas: geração de roteiro, geração de trajetória e verificação.
Na geração de roteiro, o modelo cria um roteiro, ou guia, com informações sobre o ambiente, tarefas e ações que as personas podem realizar. (Os pesquisadores testaram o AgentRefine usando Llama-3-8B-Instruct, Llama-3-70B-Instruct, Mistral-7B-Instruct-v0.3, GPT-4o-mini e GPT-4o)
O modelo então gera dados do agente que contêm erros e atua tanto como um DM quanto como um jogador durante a fase de trajetória. Ele avalia as ações que pode realizar e verifica se essas contêm erros. A última fase, verificação, checa o roteiro e a trajetória, permitindo o potencial de que os agentes que treina façam a autocorreção.
Melhores e mais diversas habilidades de tarefas
Os pesquisadores descobriram que os agentes treinados usando o método e conjunto de dados do AgentRefine se saíram melhor em tarefas diversas e se adaptaram a novos cenários. Esses agentes se autocorrigem mais para redirecionar suas ações e tomada de decisões para evitar erros, tornando-se mais robustos no processo.
Em particular, o AgentRefine melhorou o desempenho de todos os modelos para trabalhar em tarefas mantidas fora.
As empresas devem tornar os agentes mais adaptáveis a tarefas para que não repitam apenas o que aprenderam, para que possam se tornar melhores tomadores de decisão. Orquestrar agentes não apenas “dirige o tráfego” para múltiplos agentes, mas também determina se os agentes completaram tarefas com base nas solicitações dos usuários.
A o3 da OpenAI oferece “sintese de programa” que poderia melhorar a adaptabilidade das tarefas. Outras estruturas de orquestração e treinamento, como o Magentic-One da Microsoft, definem ações para que agentes supervisores aprendam quando mover tarefas para diferentes agentes.