Uma das técnicas mais amplamente utilizadas para tornar os modelos de IA mais eficientes, a quantização, tem limites — e a indústria pode estar se aproximando rapidamente deles.
No contexto da IA, a quantização refere-se à redução do número de bits — as menores unidades que um computador pode processar — necessárias para representar informações. Considere esta analogia: Quando alguém pergunta as horas, você provavelmente diria “meio-dia” — não “doze horas, um segundo e quatro milissegundos.” Isso é quantizar; ambas as respostas estão corretas, mas uma é ligeiramente mais precisa. Quanta precisão você realmente precisa depende do contexto.
Os modelos de IA consistem em vários componentes que podem ser quantizados — em particular, parâmetros, as variáveis internas que os modelos usam para fazer previsões ou decisões. Isso é conveniente, considerando que os modelos realizam milhões de cálculos quando executados. Modelos quantizados com menos bits representando seus parâmetros são menos exigentes matematicamente e, portanto, computacionalmente. (Para ser claro, esse é um processo diferente de “destilação”, que é uma poda mais envolvente e seletiva de parâmetros.)
Mas a quantização pode ter mais desvantagens do que se supunha anteriormente.
O modelo cada vez menor
De acordo com um estudo de pesquisadores de Harvard, Stanford, MIT, Databricks e Carnegie Mellon, modelos quantizados têm um desempenho pior se a versão original, não quantizada, do modelo foi treinada por um longo período em muitos dados. Em outras palavras, em certo ponto, pode ser melhor apenas treinar um modelo menor do que tentar reduzir um grande.
Isso pode ser uma má notícia para as empresas de IA que treinam modelos extremamente grandes (conhecidos por melhorar a qualidade das respostas) e depois os quantizam na tentativa de torná-los menos caros de servir.
Os efeitos já estão se manifestando. Há alguns meses, desenvolvedores e acadêmicos relataram que a quantização do modelo Llama 3 da Meta tendia a ser “mais prejudicial” em comparação com outros modelos, potencialmente devido à forma como foi treinado.
“Na minha opinião, o custo número um para todos em IA é e continuará a ser a inferência, e nosso trabalho mostra que uma maneira importante de reduzi-lo não funcionará para sempre,” disse Tanishq Kumar, um estudante de matemática de Harvard e o primeiro autor do artigo, ao TechCrunch.
Contrariamente à crença popular, a inferência de modelos de IA — executar um modelo, como quando o ChatGPT responde a uma pergunta — é frequentemente mais cara em termos agregados do que o treinamento do modelo. Considere, por exemplo, que o Google gastou cerca de 191 milhões de dólares para treinar um de seus modelos de destaque, Gemini — certamente uma quantia considerável. Mas se a empresa usasse um modelo para gerar respostas de 50 palavras para metade de todas as consultas de pesquisa do Google, gastaria cerca de 6 bilhões de dólares por ano.
Os principais laboratórios de IA abraçaram o treinamento de modelos em conjuntos de dados massivos sob a suposição de que “escalar” — aumentar a quantidade de dados e computação usados no treinamento — levará a uma IA cada vez mais capaz.
Por exemplo, a Meta treinou o Llama 3 em um conjunto de 15 trilhões de tokens. (Tokens representam bits de dados brutos; 1 milhão de tokens é igual a cerca de 750.000 palavras.) A geração anterior, Llama 2, foi treinada em “apenas” 2 trilhões de tokens.
Evidências sugerem que escalar eventualmente proporciona retornos decrescentes; a Anthropic e o Google relataram recentemente que treinaram enormes modelos que não atenderam às expectativas internas de referência. Mas há pouco sinal de que a indústria está pronta para se afastar de essas abordagens de escalonamento arraigadas.
Quão preciso, exatamente?
Então, se os laboratórios estão relutantes em treinar modelos em conjuntos de dados menores, há uma maneira de os modelos se tornarem menos suscetíveis à degradação? Possivelmente. Kumar diz que ele e os co-autores descobriram que treinar modelos em “baixa precisão” pode torná-los mais robustos. Aguente firme por um momento enquanto mergulhamos um pouco.
“Precisão” aqui refere-se ao número de dígitos que um tipo de dado numérico pode representar com precisão. Tipos de dados são coleções de valores de dados, geralmente especificados por um conjunto de valores possíveis e operações permitidas; o tipo de dado FP8, por exemplo, usa apenas 8 bits para representar um número de ponto flutuante.
A maioria dos modelos hoje é treinada em 16 bits ou “meia precisão” e “quantizada pós-treinamento” para 8 bits de precisão. Certos componentes do modelo (por exemplo, seus parâmetros) são convertidos para um formato de menor precisão à custa de alguma precisão. Pense nisso como fazer a matemática até algumas casas decimais, mas depois arredondar para o décimo mais próximo, muitas vezes dando a você o melhor dos dois mundos.
Fornecedores de hardware como a Nvidia estão pressionando por uma menor precisão para a inferência de modelos quantizados. O novo chip Blackwell da empresa suporta precisão de 4 bits, especificamente um tipo de dado chamado FP4; a Nvidia apresentou isso como uma vantagem para data centers limitados em memória e energia.
Mas uma quantização extremamente baixa pode não ser desejável. De acordo com Kumar, a menos que o modelo original seja incrivelmente grande em termos de contagem de parâmetros, precisões inferiores a 7 ou 8 bits podem apresentar uma queda notável na qualidade.
Se tudo isso parece um pouco técnico, não se preocupe — é. Mas a conclusão é simplesmente que os modelos de IA não são totalmente compreendidos, e atalhos conhecidos que funcionam em muitos tipos de computação não funcionam aqui. Você não diria “meio-dia” se alguém perguntasse quando começou uma corrida de 100 metros, certo? Não é tão óbvio assim, é claro, mas a ideia é a mesma:
“O ponto chave do nosso trabalho é que existem limitações que você não pode contornar ingenuamente,” concluiu Kumar. “Esperamos que nosso trabalho adicione nuance à discussão que muitas vezes busca cada vez mais padrões de baixa precisão para treinamento e inferência.”
Kumar reconhece que seu estudo e o dos colegas foi em escala relativamente pequena — eles planejam testá-lo com mais modelos no futuro. Mas ele acredita que pelo menos uma percepção se manterá: Não há almoço grátis quando se trata de reduzir custos de inferência.
“A precisão dos bits importa, e não é gratuita,” disse ele. “Você não pode reduzi-la para sempre sem que os modelos sofram. Os modelos têm capacidade finita, então, em vez de tentar encaixar um quatrilhão de tokens em um modelo pequeno, na minha opinião, muito mais esforço será colocado em curadoria e filtragem de dados meticulosos, para que apenas os dados da mais alta qualidade sejam colocados em modelos menores. Estou otimista de que novas arquiteturas que visam deliberadamente tornar o treinamento de baixa precisão estável serão importantes no futuro.