23 de outubro de 2024 14:32
A fusão de modelos é um processo fundamental de IA que permite que organizações reutilizem e combinem modelos treinados existentes para alcançar objetivos específicos.
Existem várias maneiras pelas quais as empresas podem usar a fusão de modelos hoje, mas muitas abordagens são complexas. Uma nova abordagem conhecida como Fusão Adaptativa Diferenciável (DAM) pode ser a resposta, fornecendo uma solução para os desafios atuais da fusão de modelos. O DAM oferece uma solução inovadora para combinar modelos de IA enquanto reduz potencialmente os custos computacionais.
A Arcee, uma empresa focada em modelos de linguagem pequenos e especializados, está liderando a pesquisa sobre DAM. A empresa, que arrecadou fundos em maio de 2024, evoluiu de fornecedora de ferramentas de treinamento de modelos para se tornar uma plataforma de entrega de modelos completa com ofertas de código aberto e comerciais.
Como o DAM cria um novo caminho para a fusão de modelos
A fusão pode ajudar as empresas a combinar modelos especializados em diferentes áreas para criar um novo modelo capaz em ambas as áreas.
O conceito básico de fusão de dados é bem compreendido com dados estruturados e bancos de dados. No entanto, a fusão de modelos é mais abstrata do que a fusão de dados estruturados, uma vez que as representações internas dos modelos não são tão interpretáveis.
Thomas Gauthier-Caron, engenheiro de pesquisa da Arcee e um dos autores da pesquisa sobre DAM, explicou ao VentureBeat que a fusão de modelos tradicional frequentemente se baseou em algoritmos evolutivos. Essa abordagem pode ser potencialmente lenta e imprevisível. O DAM adota uma abordagem diferente, aproveitando técnicas de otimização de aprendizado de máquina (ML) estabelecidas.
Gauthier-Caron explicou que o DAM visa resolver o problema da complexidade no processo de fusão de modelos. A biblioteca existente da empresa, Merge Kit, é útil para fundir diferentes modelos, mas é complexa devido aos vários métodos e parâmetros envolvidos.
“Estávamos nos perguntando, podemos tornar isso mais fácil, podemos fazer com que a máquina otimize isso para nós, em vez de estarmos mexendo em todos esses parâmetros?” disse Gauthier-Caron.
Em vez de apenas misturar os modelos diretamente, o DAM ajusta com base em quanto cada modelo contribui. O DAM usa coeficientes de escala para cada coluna nas matrizes de pesos dos modelos. Ele aprende automaticamente as melhores configurações para esses coeficientes testando o quão bem o modelo combinado se sai, comparando a saída com os modelos originais e, em seguida, ajustando os coeficientes para obter melhores resultados.
De acordo com a pesquisa, o DAM apresenta desempenho competitivo ou melhor do que métodos existentes, como fusão evolutiva, DARE-TIES e Model Soups. A tecnologia representa uma mudança significativa em relação às abordagens existentes, segundo Gauthier-Caron. Ele descreveu a fusão evolutiva como um processo lento, onde não está totalmente claro de antemão quão bom será o resultado ou quanto tempo o processo de fusão deve durar.
A fusão não é uma abordagem de Mistura de Especialistas
Cientistas de dados combinam modelos de várias maneiras diferentes. Entre as abordagens cada vez mais populares está a Mistura de Especialistas (MoE).
Gauthier-Caron enfatizou que a fusão de modelos com o DAM é algo muito diferente do MoE. Ele explicou que o MoE é uma arquitetura específica que pode ser usada para treinar modelos de linguagem.
O conceito básico por trás da fusão de modelos é que começa a partir do ponto em que a organização já possui modelos treinados. Treinar esses modelos normalmente custa muito dinheiro, então os engenheiros buscam reutilizar modelos treinados existentes.
Aplicações práticas e benefícios do DAM para IA empresarial
Uma das principais vantagens do DAM é sua capacidade de combinar modelos especializados de forma eficiente.
Um exemplo provado por Gauthier-Caron é se uma organização quisesse combinar um modelo japonês com um modelo de matemática. O objetivo dessa combinação é fazer um modelo que seja bom em matemática em japonês, sem a necessidade de retrainar. Essa é uma área onde o DAM pode potencialmente se destacar.
A tecnologia é particularmente relevante para a adoção empresarial de IA generativa, onde considerações de eficiência e custo são fundamentais. Ajudar a criar maneiras mais eficientes de operar a um custo reduzido é um objetivo chave para a Arcee no geral. É por isso que a pesquisa sobre DAM é importante tanto para a empresa quanto, em última análise, para seus usuários também.
“A adoção empresarial de IA generativa se resume a eficiência, disponibilidade, escalabilidade e custo”, disse Mark McQuade, cofundador e CEO da Arcee ao VentureBeat.