O fim da escalabilidade da IA pode não estar próximo: Aqui está o que vem a seguir

À medida que os sistemas de IA alcançam desempenho sobre-humano em tarefas cada vez mais complexas, a indústria está se perguntando se modelos maiores são mesmo possíveis — ou se a inovação deve seguir um caminho diferente.

A abordagem geral para o desenvolvimento de modelos de linguagem de grande porte (LLMs) tem sido que maior é melhor, e que o desempenho escala com mais dados e mais poder computacional. No entanto, discussões recentes na mídia se concentraram em como os LLMs estão se aproximando de seus limites. “A IA está atingindo um muro?” questionou o The Verge, enquanto a Reuters relatou que “OpenAI e outros buscam um novo caminho para uma IA mais inteligente à medida que os métodos atuais enfrentam limitações.”

A preocupação é que a escalabilidade, que impulsionou os avanços por anos, pode não se estender à próxima geração de modelos. Relatórios sugerem que o desenvolvimento de modelos de fronteira como o GPT-5, que empurram os limites atuais da IA, pode enfrentar desafios devido aos ganhos de desempenho decrescentes durante o pré-treinamento. O Information relatou sobre esses desafios na OpenAI e a Bloomberg cobriu notícias semelhantes na Google e na Anthropic.

Esse problema gerou preocupações de que esses sistemas podem estar sujeitos à lei dos retornos decrescentes — onde cada unidade adicional de entrada gera ganhos progressivamente menores. À medida que os LLMs crescem, os custos para obter dados de treinamento de alta qualidade e escalar a infraestrutura aumentam exponencialmente, reduzindo os retornos sobre a melhoria de desempenho em novos modelos. Complicando esse desafio está a disponibilidade limitada de novos dados de alta qualidade, uma vez que grande parte das informações acessíveis já foi incorporada em conjuntos de dados de treinamento existentes.

Isso não significa o fim dos ganhos de desempenho para a IA. Significa simplesmente que, para sustentar o progresso, mais engenharia é necessária através da inovação na arquitetura do modelo, técnicas de otimização e uso de dados.

Aprendendo com a Lei de Moore

Um padrão semelhante de retornos decrescentes apareceu na indústria de semicondutores. Durante décadas, a indústria se beneficiou da Lei de Moore, que previa que o número de transistores dobraria a cada 18 a 24 meses, impulsionando melhorias de desempenho dramáticas através de designs menores e mais eficientes. Isso também eventualmente atingiu retornos decrescentes, começando em algum momento entre 2005 e 2007 devido ao Escalonamento de Dennard — o princípio de que a redução de transistores também reduz o consumo de energia — tendo atingido seus limites, o que alimentou previsões sobre a morte da Lei de Moore.

Tive uma visão próxima desse problema quando trabalhei na AMD de 2012 a 2022. Esse problema não significou que os semicondutores — e, por extensão, os processadores de computador — pararam de alcançar melhorias de desempenho de uma geração para outra. Significou que as melhorias vieram mais de designs de chiplet, memória de alta largura de banda, interruptores ópticos, mais memória cache e arquitetura de computação acelerada, em vez da redução do tamanho dos transistores.

Novos caminhos para o progresso

Fenômenos semelhantes já estão sendo observados com os LLMs atuais. Modelos de IA multimodal como GPT-4o, Claude 3.5 e Gemini 1.5 provaram o poder de integrar compreensão de texto e imagem, permitindo avanços em tarefas complexas como análise de vídeo e legendagem contextual de imagens. Mais ajustes de algoritmos para treinamento e inferência levarão a mais ganhos de desempenho. Tecnologias de agentes, que permitem que os LLMs realizem tarefas de forma autônoma e coordenem-se perfeitamente com outros sistemas, em breve expandirão significativamente suas aplicações práticas.

Futuros avanços de modelo podem surgir de uma ou mais arquiteturas híbridas de IA que combinam raciocínio simbólico com redes neurais. Já, o modelo de raciocínio o1 da OpenAI mostra o potencial para integração de modelos e extensão de desempenho. Embora esteja apenas agora emergindo de sua fase inicial de desenvolvimento, a computação quântica promete acelerar o treinamento e a inferência de IA, abordando os atuais gargalos computacionais.

O muro de escalabilidade percebido é improvável que acabe com os ganhos futuros, pois a comunidade de pesquisa em IA provou consistentemente sua engenhosidade em superar desafios e desbloquear novas capacidades e avanços de desempenho.

Na verdade, nem todos concordam que existe um muro de escalabilidade. O CEO da OpenAI, Sam Altman, foi sucinto em suas opiniões: “Não há muro.”

Falando no podcast “Diary of a CEO”, o ex-CEO do Google e coautor de Genesis, Eric Schmidt, basicamente concordou com Altman, dizendo que não acredita que haja um muro de escalabilidade — pelo menos não haverá um nos próximos cinco anos. “Em cinco anos, você terá duas ou três mais voltas na manivela desses LLMs. Cada uma dessas voltas parece um fator de dois, fator de três, fator de quatro de capacidade, então vamos apenas dizer que girar a manivela em todos esses sistemas obterá 50 vezes ou 100 vezes mais poderoso,” disse ele.

Os principais inovadores em IA ainda estão otimistas sobre o ritmo do progresso, bem como o potencial para novas metodologias. Esse otimismo é evidente em uma conversa recente no “Lenny’s Podcast” com o CPO da OpenAI, Kevin Weil, e o CPO da Anthropic, Mike Krieger.

Nesta discussão, Krieger descreveu que o que a OpenAI e a Anthropic estão trabalhando hoje “parece mágica”, mas reconheceu que em apenas 12 meses, “olharemos para trás e diremos, você pode acreditar que usamos aquela porcaria? … É assim que o desenvolvimento da IA está se movendo tão rápido.”

É verdade — realmente parece mágica, como experimentei recentemente ao usar o Modo de Voz Avançado da OpenAI. Falar com ‘Juniper’ parecia totalmente natural e sem costura, mostrando como a IA está evoluindo para entender e responder com emoção e nuance em conversas em tempo real.

Krieger também discute o recente modelo o1, referindo-se a isso como “uma nova maneira de escalar a inteligência, e sentimos que estamos apenas no começo.” Ele acrescentou: “Os modelos vão ficar mais inteligentes a uma taxa acelerada.”

Esses avanços esperados sugerem que, enquanto as abordagens tradicionais de escalabilidade podem ou não enfrentar retornos decrescentes no curto prazo, o campo da IA está preparado para avanços contínuos através de novas metodologias e engenharia criativa.

A escalabilidade realmente importa?

Enquanto os desafios de escalabilidade dominam grande parte do discurso atual em torno dos LLMs, estudos recentes sugerem que os modelos atuais já são capazes de resultados extraordinários, levantando uma questão provocativa sobre se mais escalabilidade realmente importa.

Um estudo recente previu que o ChatGPT ajudaria médicos a fazer diagnósticos quando apresentados com casos de pacientes complicados. Conduzido com uma versão inicial do GPT-4, o estudo comparou as capacidades de diagnóstico do ChatGPT contra as de médicos com e sem ajuda de IA. Um resultado surpreendente revelou que o ChatGPT sozinho superou substancialmente ambos os grupos, incluindo médicos usando ajuda de IA. Existem várias razões para isso, desde a falta de compreensão dos médicos sobre como usar melhor o bot até a crença de que seu conhecimento, experiência e intuição eram inerentemente superiores.

Este não é o primeiro estudo que mostra bots alcançando resultados superiores em comparação com profissionais. A VentureBeat relatou um estudo no início deste ano que mostrou que os LLMs podem conduzir análise de demonstrações financeiras com precisão rivalizando — e até superando — a de analistas profissionais. Também usando o GPT-4, outro objetivo era prever o crescimento dos lucros futuros. O GPT-4 alcançou 60% de precisão na previsão da direção dos lucros futuros, notavelmente mais alto do que a faixa de 53 a 57% das previsões de analistas humanos.

Notavelmente, ambos esses exemplos são baseados em modelos que já estão desatualizados. Esses resultados sublinham que mesmo sem novos avanços em escalabilidade, os LLMs existentes já são capazes de superar especialistas em tarefas complexas, desafiando suposições sobre a necessidade de mais escalabilidade para alcançar resultados impactantes.

Escalabilidade, habilidades ou ambos

Esses exemplos mostram que os LLMs atuais já são altamente capazes, mas a escalabilidade sozinha pode não ser o único caminho a seguir para a inovação futura. Mas com mais escalabilidade possível e outras técnicas emergentes prometendo melhorar o desempenho, o otimismo de Schmidt reflete o ritmo rápido do avanço da IA, sugerindo que em apenas cinco anos, os modelos poderiam evoluir para polímatas, respondendo perfeitamente a perguntas complexas em múltiplos campos.

Seja através da escalabilidade, habilidades ou metodologias totalmente novas, a próxima fronteira da IA promete transformar não apenas a tecnologia em si, mas seu papel em nossas vidas. O desafio à frente é garantir que o progresso permaneça responsável, equitativo e impactante para todos.

Fonte

Compartilhe esse conteúdo: