Magnetic-One, a estrutura de orquestração de agentes de IA da Microsoft, implanta múltiplos agentes para resolver tarefas diárias de forma autônoma.
Empresas que buscam implantar múltiplos agentes de IA frequentemente precisam implementar uma estrutura para gerenciá-los.
Com esse objetivo, pesquisadores da Microsoft recentemente revelaram uma nova infraestrutura de múltiplos agentes chamada Magnetic-One, que permite que um único modelo de IA impulsione vários agentes auxiliares que trabalham juntos para completar tarefas complexas e de múltiplas etapas em diferentes cenários. A Microsoft chama o Magnetic-One de um sistema de agentes generalista que pode “realizar plenamente a visão de longa data de sistemas agentes que podem aumentar nossa produtividade e transformar nossas vidas.”
A estrutura é de código aberto e está disponível para pesquisadores e desenvolvedores, incluindo para fins comerciais, sob uma licença personalizada da Microsoft. Em conjunto com o lançamento do Magnetic-One, a Microsoft também lançou uma ferramenta de avaliação de agentes de código aberto chamada AutoGenBench para testar sistemas agentes, construída sobre sua estrutura previamente lançada Autogen para comunicação e cooperação entre múltiplos agentes.
A ideia por trás dos sistemas agentes generalistas é descobrir como agentes autônomos podem resolver tarefas que exigem várias etapas para serem concluídas, frequentemente encontradas na execução diária de uma organização ou até mesmo na vida cotidiana de um indivíduo.
A partir dos exemplos fornecidos pela Microsoft, parece que a empresa espera que o Magnetic-One cumpra tarefas quase mundanas. Os pesquisadores apontaram o Magnetic-One para tarefas como descrever tendências no S&P 500, encontrar e exportar citações ausentes e até mesmo pedir um shawarma.
Como o Magnetic-One funciona
O Magnetic-One depende de um agente Orquestrador que dirige quatro outros agentes. O Orquestrador não apenas gerencia os agentes, direcionando-os para realizar tarefas específicas, mas também os redireciona se houver erros.
A estrutura é composta por quatro tipos de agentes além do Orquestrador:
Agentes Websurfer podem comandar navegadores baseados em Chromium e navegar para websites ou realizar buscas na web. Eles também podem clicar e digitar, semelhante ao uso de computador recentemente lançado pela Anthropic, e resumir conteúdo.
Agentes FileSurfer leem arquivos locais, listam diretórios e percorrem pastas.
Agentes Coder escrevem códigos, analisam informações de outros agentes e criam novos artefatos.
ComputerTerminal fornece um console onde os programas do agente Coder podem ser executados.
O Orquestrador dirige esses agentes e acompanha seu progresso. Começa planejando como abordar a tarefa. Ele cria o que os pesquisadores da Microsoft chamam de livro de tarefas que rastreia o fluxo de trabalho. À medida que a tarefa avança, o Orquestrador constrói um livro de progresso “onde se autorreflete sobre o progresso da tarefa e verifica se a tarefa está concluída.” O Orquestrador pode designar um agente para completar cada tarefa ou atualizar o livro de tarefas. O Orquestrador pode criar um novo plano se os agentes ficarem presos.
“Juntos, os agentes do Magnetic-One fornecem ao Orquestrador as ferramentas e capacidades necessárias para resolver uma ampla variedade de problemas abertos, bem como a capacidade de se adaptar e agir de forma autônoma em ambientes dinâmicos e em constante mudança na web e no sistema de arquivos,” escreveram os pesquisadores no artigo.
Embora a Microsoft tenha desenvolvido o Magnetic-One usando o GPT-4o da OpenAI — a OpenAI é, afinal, um investimento da Microsoft — ele é agnóstico em relação a LLMs, embora os pesquisadores “recomendem um modelo de raciocínio forte para o agente Orquestrador, como o GPT-4o.”
O Magnetic-One suporta múltiplos modelos por trás dos agentes; por exemplo, os desenvolvedores podem implantar um LLM de raciocínio para o agente Orquestrador e uma mistura de outros LLMs ou pequenos modelos de linguagem para os diferentes agentes. Pesquisadores da Microsoft experimentaram uma configuração diferente do Magnetic-One “usando o OpenAI 01-preview para o ciclo externo do Orquestrador e para o Coder, enquanto outros agentes continuam a usar o GPT-4o.”
O próximo passo em estruturas de agentes
Sistemas agentes estão se tornando mais populares à medida que mais opções para implantar agentes, desde bibliotecas de agentes prontas para uso até agentes personalizáveis específicos da organização, surgiram. A Microsoft anunciou seu próprio conjunto de agentes de IA para a plataforma Dynamics 365 em outubro.
As empresas de tecnologia agora estão começando a competir em estruturas de orquestração de IA, particularmente sistemas que gerenciam fluxos de trabalho agentes. A OpenAI lançou sua estrutura Swarm, que oferece aos desenvolvedores uma maneira simples, mas flexível, de permitir que agentes guiem a colaboração entre agentes. O criador de múltiplos agentes CrewAI também oferece uma maneira de gerenciar agentes. Enquanto isso, a maioria das empresas tem confiado no LangChain para ajudar a construir estruturas de agentes.
No entanto, a implantação de agentes de IA nas empresas ainda está em seus estágios iniciais, então descobrir a melhor estrutura de múltiplos agentes continuará sendo um experimento em andamento. A maioria dos agentes de IA ainda atua em seus próprios espaços, em vez de se comunicar com agentes de outros sistemas. À medida que mais empresas começam a usar agentes de IA, gerenciar essa expansão e garantir que os agentes de IA transfiram o trabalho uns aos outros de forma contínua para completar tarefas se torna mais crucial.