LLMs não conseguem superar uma técnica dos anos 70, mas ainda valem a pena — aqui está o porquê

Neste ano, nossa equipe no MIT Data to AI lab decidiu tentar usar grandes modelos de linguagem (LLMs) para realizar uma tarefa geralmente deixada para ferramentas de aprendizado de máquina muito diferentes — detectar anomalias em dados de séries temporais. Esta tem sido uma tarefa comum de aprendizado de máquina (ML) por décadas, usada frequentemente na indústria para antecipar e encontrar problemas com maquinário pesado. Desenvolvemos uma estrutura para usar LLMs nesse contexto e, em seguida, comparamos seu desempenho com 10 outros métodos, desde ferramentas de aprendizado profundo de última geração até um método simples dos anos 1970 chamado média móvel integrada autorregressiva (ARIMA). No final, os LLMs perderam para os outros modelos na maioria dos casos — até mesmo o modelo ARIMA, que superou os LLMs em sete conjuntos de dados de um total de 11.

Para aqueles que sonham com LLMs como uma tecnologia universal de resolução de problemas, isso pode soar como uma derrota. E para muitos na comunidade de IA — que estão descobrindo os limites atuais dessas ferramentas — isso é provavelmente surpreendente. Mas havia dois elementos de nossas descobertas que realmente nos surpreenderam. Primeiro, a capacidade dos LLMs de superar alguns modelos, incluindo alguns métodos de aprendizado profundo baseados em transformadores, nos pegou de surpresa. O segundo e talvez mais importante foi que, ao contrário dos outros modelos, os LLMs fizeram tudo isso sem ajuste fino. Usamos os LLMs GPT-3.5 e Mistral sem modificações, e não os ajustamos de forma alguma.

Os LLMs quebraram múltiplas barreiras fundamentais

Para as abordagens que não utilizam LLMs, treinaríamos um modelo de aprendizado profundo, ou o modelo mencionado dos anos 1970, usando o sinal para o qual queremos detectar anomalias. Essencialmente, usaríamos os dados históricos para o sinal para treinar o modelo para que ele entendesse como é o “normal”. Então, implantaríamos o modelo, permitindo que ele processasse novos valores para o sinal em tempo real, detectasse quaisquer desvios do normal e os sinalizasse como anomalias.

Os LLMs não precisaram de exemplos anteriores

Mas, quando usamos LLMs, não fizemos esse processo em duas etapas — os LLMs não tiveram a oportunidade de aprender o “normal” a partir dos sinais antes de terem que detectar anomalias em tempo real. Chamamos isso de aprendizado zero-shot. Visto sob essa perspectiva, é uma conquista incrível. O fato de que os LLMs podem realizar aprendizado zero-shot — entrando nesse problema sem exemplos anteriores ou ajuste fino — significa que agora temos uma maneira de detectar anomalias sem treinar modelos específicos do zero para cada sinal ou condição específica. Isso é um grande ganho de eficiência, porque certos tipos de maquinário pesado, como satélites, podem ter milhares de sinais, enquanto outros podem exigir treinamento para condições específicas. Com os LLMs, essas etapas que consomem tempo podem ser completamente puladas.

Os LLMs podem ser integrados diretamente na implantação

Uma segunda parte, talvez mais desafiadora, dos métodos atuais de detecção de anomalias é o processo em duas etapas empregado para treinar e implantar um modelo de ML. Embora a implantação pareça simples o suficiente, na prática é muito desafiadora. Implantar um modelo treinado exige que traduzamos todo o código para que ele possa ser executado no ambiente de produção. Mais importante ainda, devemos convencer o usuário final, neste caso o operador, a nos permitir implantar o modelo. Os operadores em si nem sempre têm experiência com aprendizado de máquina, então muitas vezes consideram isso um item adicional e confuso adicionado ao seu fluxo de trabalho já sobrecarregado. Eles podem fazer perguntas, como “com que frequência você irá re-treinar?”, “como alimentamos os dados no modelo?”, “como usamos isso para vários sinais e desligamos para outros que não são nosso foco no momento?”, e assim por diante.

Essa transferência geralmente causa atrito e, em última análise, resulta na incapacidade de implantar um modelo treinado. Com os LLMs, como nenhum treinamento ou atualizações são necessárias, os operadores estão no controle. Eles podem consultar com APIs, adicionar sinais que desejam detectar anomalias, remover aqueles para os quais não precisam de detecção de anomalias e ativar ou desativar o serviço sem depender de outra equipe. Essa capacidade dos operadores de controlar diretamente a detecção de anomalias mudará dinâmicas difíceis em torno da implantação e pode ajudar a tornar essas ferramentas muito mais abrangentes.

Enquanto melhoramos o desempenho dos LLMs, não devemos tirar suas vantagens fundamentais

Embora estejam nos levando a repensar fundamentalmente a detecção de anomalias, as técnicas baseadas em LLM ainda não conseguiram desempenhar tão bem quanto os modelos de aprendizado profundo de última geração, ou (para 7 conjuntos de dados) o modelo ARIMA dos anos 1970. Isso pode ser porque minha equipe no MIT não ajustou ou modificou os LLM de forma alguma, ou criou um LLM fundamental especificamente destinado a ser usado com séries temporais.

Embora todas essas ações possam impulsionar o progresso, precisamos ter cuidado sobre como esse ajuste fino acontece para não comprometer os dois principais benefícios que os LLMs podem oferecer nesse espaço. (Afinal, embora os problemas acima sejam reais, eles são solucionáveis.) Com isso em mente, aqui está o que não podemos fazer para melhorar a precisão da detecção de anomalias dos LLMs:

Ajustar os LLMs existentes para sinais específicos, pois isso derrotará sua natureza de “zero shot”.

Construir um LLM fundamental para trabalhar com séries temporais e adicionar uma camada de ajuste fino para cada novo tipo de maquinário.

Essas duas etapas derrotariam o propósito de usar LLMs e nos levariam de volta ao ponto de partida: ter que treinar um modelo para cada sinal e enfrentar dificuldades na implantação.

Para que os LLMs compitam com abordagens existentes — detecção de anomalias ou outras tarefas de ML — eles devem permitir uma nova maneira de realizar uma tarefa ou abrir um conjunto totalmente novo de possibilidades. Para provar que os LLMs com quaisquer camadas adicionais ainda constituirão uma melhoria, a comunidade de IA deve desenvolver métodos, procedimentos e práticas para garantir que melhorias em algumas áreas não eliminem as outras vantagens dos LLMs.

Para o ML clássico, levou quase duas décadas para estabelecer a prática de treinar, testar e validar que dependemos hoje. Mesmo com esse processo, ainda não conseguimos garantir que o desempenho de um modelo em ambientes de teste corresponda ao seu desempenho real quando implantado. Encontramos problemas de vazamento de rótulos, preconceitos de dados no treinamento e muitos outros problemas para listar aqui.

Se empurrarmos essa nova avenida promissora longe demais sem essas salvaguardas específicas, podemos escorregar e reinventar a roda novamente — talvez uma roda ainda mais complexa.

Fonte