O CEO da AI21 diz que transformadores não são adequados para agentes de IA devido à perpetuação de erros

Um robô gerado por IA sentado em frente a um computador, respondendo a tickets de atendimento ao cliente.

À medida que mais organizações empresariais buscam o futuro agente, uma barreira pode ser como os modelos de IA são construídos. Para o desenvolvedor de IA empresarial AI21, a resposta é clara: a indústria precisa olhar para outras arquiteturas de modelo para permitir agentes de IA mais eficientes.

Ari Goshen, CEO da AI21, disse em uma entrevista ao VentureBeat que os Transformadores, a arquitetura de modelo mais popular, têm limitações que tornariam um ecossistema multi-agente difícil.

“Uma tendência que estou vendo é o aumento de arquiteturas que não são Transformadores, e essas arquiteturas alternativas serão mais eficientes”, disse Goshen. “Os Transformadores funcionam criando tantos tokens que podem se tornar muito caros.”

A AI21, que se concentra no desenvolvimento de soluções de IA empresarial, já defendeu anteriormente que os Transformadores devem ser uma opção para a arquitetura de modelo, mas não o padrão. Ela está desenvolvendo modelos fundamentais usando sua arquitetura JAMBA, que significa Joint Attention and Mamba architecture. É baseada na arquitetura Mamba desenvolvida por pesquisadores da Universidade de Princeton e da Universidade Carnegie Mellon, que pode oferecer tempos de inferência mais rápidos e um contexto mais longo.

Goshen disse que arquiteturas alternativas, como Mamba e Jamba, podem frequentemente tornar as estruturas agentes mais eficientes e, o mais importante, acessíveis. Para ele, os modelos baseados em Mamba têm um desempenho de memória melhor, o que faria com que os agentes, particularmente aqueles que se conectam a outros modelos, funcionassem melhor.

Ele atribui a razão pela qual os agentes de IA estão apenas agora ganhando popularidade — e por que a maioria dos agentes ainda não foi para o produto — à dependência de LLMs construídos com transformadores.

“A principal razão pela qual os agentes ainda não estão em modo de produção é a confiabilidade ou a falta de confiabilidade”, disse Goshen. “Quando você analisa um modelo transformador, sabe que ele é muito estocástico, então qualquer erro será perpetuado.”

Os agentes empresariais estão crescendo em popularidade

Os agentes de IA emergiram como uma das maiores tendências em IA empresarial este ano. Várias empresas lançaram agentes de IA e plataformas para facilitar a construção de agentes.

A ServiceNow anunciou atualizações para sua plataforma Now Assist AI, incluindo uma biblioteca de agentes de IA para clientes. A Salesforce tem seu conjunto de agentes chamado Agentforce, enquanto o Slack começou a permitir que os usuários integrem agentes da Salesforce, Cohere, Workday, Asana, Adobe e mais.

Goshen acredita que essa tendência se tornará ainda mais popular com a combinação certa de modelos e arquiteturas de modelo.

“Alguns casos de uso que vemos agora, como perguntas e respostas de um chatbot, são basicamente buscas glorificadas”, disse ele. “Acho que a verdadeira inteligência está em conectar e recuperar diferentes informações de fontes.”

Goshen acrescentou que a AI21 está em processo de desenvolvimento de ofertas em torno de agentes de IA.

Outras arquiteturas competindo por atenção

Goshen apoia fortemente arquiteturas alternativas como Mamba e JAMBA da AI21, principalmente porque acredita que os modelos transformadores são muito caros e difíceis de executar.

Em vez de um mecanismo de atenção que forma a espinha dorsal dos modelos transformadores, Mamba pode priorizar diferentes dados e atribuir pesos às entradas, otimizar o uso da memória e usar o poder de processamento de uma GPU.

Mamba está crescendo em popularidade. Outros desenvolvedores de IA de código aberto e peso aberto começaram a lançar modelos baseados em Mamba nos últimos meses. A Mistral lançou o Codestral Mamba 7B em julho, e em agosto, a Falcon lançou seu próprio modelo baseado em Mamba, o Falcon Mamba 7B.

No entanto, a arquitetura transformadora se tornou a escolha padrão, senão padrão, ao desenvolver modelos fundamentais. O GPT da OpenAI é, claro, um modelo transformador — está literalmente em seu nome — mas a maioria dos outros modelos populares também são.

Goshen disse que, em última análise, as empresas querem a abordagem que for mais confiável. Mas as organizações também devem estar atentas a demonstrações chamativas que prometem resolver muitos de seus problemas.

“Estamos na fase em que demonstrações carismáticas são fáceis de fazer, mas estamos mais perto disso do que da fase do produto”, disse Goshen. “Está tudo bem usar IA empresarial para pesquisa, mas ainda não está no ponto em que as empresas podem usá-la para informar decisões.”

Fonte

Compartilhe esse conteúdo: