Os laboratórios de IA que estão viajando pela estrada em direção a sistemas superinteligentes estão percebendo que talvez precisem fazer um desvio.
“As leis de escalonamento da IA”, os métodos e expectativas que os laboratórios usaram para aumentar as capacidades de seus modelos nos últimos cinco anos, estão agora mostrando sinais de retornos decrescentes, de acordo com vários investidores, fundadores e CEOs de IA que falaram com a TechCrunch. Seus sentimentos ecoam relatórios recentes que indicam que os modelos dentro dos principais laboratórios de IA estão melhorando mais lentamente do que antes.
Todos agora parecem admitir que você não pode apenas usar mais computação e mais dados enquanto pré-treina grandes modelos de linguagem e esperar que eles se tornem algum tipo de deus digital onisciente. Isso pode parecer óbvio, mas essas leis de escalonamento foram um fator chave no desenvolvimento do ChatGPT, tornando-o melhor e provavelmente influenciando muitos CEOs a fazer previsões ousadas sobre a chegada da AGI em apenas alguns anos.
OpenAI e o cofundador da Safe Super Intelligence, Ilya Sutskever, disseram à Reuters na semana passada que “todos estão procurando a próxima coisa” para escalar seus modelos de IA. No início deste mês, o cofundador da a16z, Marc Andreessen, disse em um podcast que os modelos de IA atualmente parecem estar convergindo no mesmo teto de capacidades.
Mas agora, quase imediatamente após essas tendências preocupantes começarem a emergir, CEOs de IA, pesquisadores e investidores já estão declarando que estamos em uma nova era de leis de escalonamento. “Computação em tempo de teste”, que dá aos modelos de IA mais tempo e computação para “pensar” antes de responder a uma pergunta, é um concorrente especialmente promissor para ser a próxima grande novidade.
“Estamos vendo o surgimento de uma nova lei de escalonamento”, disse o CEO da Microsoft, Satya Nadella, no palco do Microsoft Ignite na terça-feira, referindo-se à pesquisa sobre computação em tempo de teste que fundamenta o modelo o1 da OpenAI.
Ele não é o único agora apontando para o o1 como o futuro.
“Estamos agora na segunda era das leis de escalonamento, que é o escalonamento em tempo de teste”, disse Anjney Midha, parceiro da Andreessen Horowitz, que também faz parte do conselho da Mistral e foi investidor-anjo na Anthropic, em uma entrevista recente à TechCrunch.
Se o sucesso inesperado – e agora, a desaceleração repentina – das leis de escalonamento da IA anteriores nos dizem algo, é que é muito difícil prever como e quando os modelos de IA irão melhorar.
Independentemente disso, parece haver uma mudança de paradigma em andamento: as maneiras como os laboratórios de IA tentam avançar seus modelos nos próximos cinco anos provavelmente não se parecerão com os últimos cinco.
O que são leis de escalonamento da IA?
As rápidas melhorias nos modelos de IA que a OpenAI, Google, Meta e Anthropic alcançaram desde 2020 podem ser atribuídas a uma única percepção chave: usar mais computação e mais dados durante a fase de pré-treinamento de um modelo de IA.
Quando os pesquisadores dão aos sistemas de aprendizado de máquina recursos abundantes durante essa fase – na qual a IA identifica e armazena padrões em grandes conjuntos de dados – os modelos tendem a ter um desempenho melhor na previsão da próxima palavra ou frase.
Essa primeira geração de leis de escalonamento da IA empurrou os limites do que os computadores poderiam fazer, à medida que os engenheiros aumentavam o número de GPUs usadas e a quantidade de dados que alimentavam. Mesmo que esse método específico tenha chegado ao fim, ele já redesenhou o mapa. Cada grande empresa de tecnologia basicamente apostou tudo em IA, enquanto a Nvidia, que fornece as GPUs que todas essas empresas treinam seus modelos, agora é a empresa de capital aberto mais valiosa do mundo.
Mas esses investimentos também foram feitos com a expectativa de que o escalonamento continuaria como esperado.
É importante notar que as leis de escalonamento não são leis da natureza, da física, da matemática ou do governo. Elas não são garantidas por nada, ou ninguém, para continuar no mesmo ritmo. Mesmo a Lei de Moore, outra famosa lei de escalonamento, eventualmente se esgotou – embora tenha tido uma duração mais longa.
“Se você apenas colocar mais computação, colocar mais dados, fazer o modelo maior – há retornos decrescentes”, disse Robert Nishihara, cofundador e ex-CEO da Anyscale, em uma entrevista à TechCrunch. “Para manter as leis de escalonamento em andamento, para manter a taxa de progresso aumentando, também precisamos de novas ideias.”
Nishihara está bastante familiarizado com as leis de escalonamento da IA. A Anyscale alcançou uma avaliação de um bilhão de dólares desenvolvendo software que ajuda a OpenAI e outros desenvolvedores de modelos de IA a escalar suas cargas de trabalho de treinamento de IA para dezenas de milhares de GPUs. A Anyscale tem sido uma das maiores beneficiárias das leis de escalonamento de pré-treinamento em torno da computação, mas até seu cofundador reconhece que a estação está mudando.
“Quando você leu um milhão de avaliações no Yelp, talvez as próximas avaliações no Yelp não lhe deem muito”, disse Nishihara, referindo-se às limitações da escalonamento de dados. “Mas isso é pré-treinamento. A metodologia em torno do pós-treinamento, eu diria, é bastante imatura e tem muito espaço para melhorar.”
Para ser claro, os desenvolvedores de modelos de IA provavelmente continuarão perseguindo clusters de computação maiores e conjuntos de dados maiores para pré-treinamento, e provavelmente há mais melhorias a serem extraídas desses métodos. Elon Musk recentemente terminou de construir um supercomputador com 100.000 GPUs, chamado Colossus, para treinar os próximos modelos da xAI. Haverá mais, e clusters maiores a seguir.
Mas as tendências sugerem que o crescimento exponencial não é possível apenas usando mais GPUs com estratégias existentes, então novos métodos estão subitamente recebendo mais atenção.
Computação em tempo de teste: a próxima grande aposta da indústria de IA
Quando a OpenAI lançou uma prévia de seu modelo o1, a startup anunciou que fazia parte de uma nova série de modelos separados do GPT.
A OpenAI melhorou seus modelos GPT em grande parte através das leis de escalonamento tradicionais: mais dados, mais poder durante o pré-treinamento. Mas agora esse método, segundo relatos, não está lhes trazendo muito. A estrutura o1 de modelos depende de um novo conceito, computação em tempo de teste, assim chamada porque os recursos computacionais são usados após um prompt, e não antes. A técnica ainda não foi muito explorada no contexto de redes neurais, mas já está mostrando promessas.
Alguns já estão apontando a computação em tempo de teste como o próximo método para escalar sistemas de IA.
“Vários experimentos estão mostrando que, mesmo que as leis de escalonamento de pré-treinamento possam estar desacelerando, as leis de escalonamento em tempo de teste – onde você dá ao modelo mais computação na inferência – podem proporcionar ganhos crescentes em desempenho”, disse Midha, da a16z.
“O novo ‘o’ da OpenAI empurra [o raciocínio em cadeia] ainda mais, e requer muito mais recursos computacionais, e, portanto, energia, para fazê-lo”, disse o renomado pesquisador de IA Yoshua Benjio em um artigo de opinião na terça-feira. “Assim, vemos uma nova forma de escalonamento computacional aparecer. Não apenas mais dados de treinamento e modelos maiores, mas mais tempo gasto ‘pensando’ sobre as respostas.”
Durante um período de 10 a 30 segundos, o modelo o1 da OpenAI se re-prompta várias vezes, quebrando um grande problema em uma série de problemas menores. Apesar de o ChatGPT dizer que está “pensando”, ele não está fazendo o que os humanos fazem – embora nossos métodos internos de resolução de problemas, que se beneficiam da reformulação clara de um problema e soluções passo a passo, tenham sido inspirações-chave para o método.
Há cerca de uma década, Noam Brown, que agora lidera o trabalho da OpenAI no o1, estava tentando construir sistemas de IA que pudessem vencer humanos no pôquer. Durante uma palestra recente, Brown disse que notou na época como os jogadores de pôquer humanos levavam tempo para considerar diferentes cenários antes de jogar uma mão. Em 2017, ele introduziu um método para permitir que um modelo “pensasse” por 30 segundos antes de jogar. Nesse tempo, a IA estava jogando diferentes subjogos, descobrindo como diferentes cenários se desenrolariam para determinar o melhor movimento.
No final, a IA teve um desempenho sete vezes melhor do que suas tentativas anteriores.
É verdade que a pesquisa de Brown em 2017 não usou redes neurais, que não eram tão populares na época. No entanto, pesquisadores do MIT publicaram um artigo na semana passada mostrando que a computação em tempo de teste melhora significativamente o desempenho de um modelo de IA em tarefas de raciocínio.
Não está imediatamente claro como a computação em tempo de teste escalaria. Isso poderia significar que os sistemas de IA precisam de um tempo realmente longo para pensar sobre perguntas difíceis; talvez horas ou até dias. Outra abordagem poderia ser permitir que um modelo de IA “pensasse” sobre perguntas em muitos chips simultaneamente.
Se a computação em tempo de teste decolar como o próximo lugar para escalar sistemas de IA, Midha diz que a demanda por chips de IA que se especializam em inferência de alta velocidade pode aumentar dramaticamente. Isso poderia ser uma boa notícia para startups como Groq ou Cerebras, que se especializam em chips de inferência rápida de IA. Se encontrar a resposta for tão pesado em computação quanto treinar o modelo, os fornecedores de “pá e picareta” em IA vencem novamente.
O mundo da IA ainda não está em pânico
A maior parte do mundo da IA não parece estar perdendo a calma sobre essas leis de escalonamento antigas desacelerando. Mesmo que a computação em tempo de teste não prove ser a próxima onda de escalonamento, alguns sentem que estamos apenas arranhando a superfície das aplicações para os modelos de IA atuais.
Novos produtos populares poderiam comprar algum tempo para os desenvolvedores de modelos de IA descobrirem novas maneiras de melhorar os modelos subjacentes.
“Estou completamente convencido de que veremos pelo menos ganhos de 10 a 20x no desempenho do modelo apenas por meio de trabalho a nível de aplicação, permitindo que os modelos brilhem por meio de prompting inteligente, decisões de UX e passando contexto no momento certo para os modelos”, disse Midha.
Por exemplo, o Modo de Voz Avançado do ChatGPT é uma das aplicações mais impressionantes dos modelos de IA atuais. No entanto, isso foi em grande parte uma inovação na experiência do usuário, não necessariamente na tecnologia subjacente. Você pode ver como mais inovações em UX, como dar a esse recurso acesso à web ou a aplicativos em seu telefone, tornariam o produto muito melhor.
Kian Katanforoosh, CEO da startup de IA Workera e professor adjunto de aprendizado profundo em Stanford, diz à TechCrunch que as empresas que constroem aplicações de IA, como a sua, não precisam necessariamente de modelos exponencialmente mais inteligentes para construir produtos melhores. Ele também afirma que os produtos ao redor dos modelos atuais têm muito espaço para melhorar.
“Vamos supor que você construa aplicações de IA e sua IA tenha alucinações em uma tarefa específica”, disse Katanforoosh. “Existem duas maneiras de evitar isso. Ou o LLM precisa melhorar e vai parar de alucinar, ou as ferramentas ao seu redor precisam melhorar e você terá oportunidades para corrigir o problema.”
Qualquer que seja o caso para a fronteira da pesquisa em IA, os usuários provavelmente não sentirão os efeitos dessas mudanças por algum tempo. Dito isso, os laboratórios de IA farão o que for necessário para continuar lançando modelos maiores, mais inteligentes e mais rápidos na mesma velocidade rápida. Isso significa que várias empresas de tecnologia líderes podem agora mudar como estão empurrando os limites da IA.