Os modelos de IA de hoje realmente lembram, pensam, planejam e raciocinam, assim como um cérebro humano? Alguns laboratórios de IA fariam você acreditar que sim, mas de acordo com o cientista-chefe de IA da Meta, Yann LeCun, a resposta é não. Ele acredita que poderíamos chegar lá em uma década, no entanto, perseguindo um novo método chamado “modelo de mundo”.
No início deste ano, a OpenAI lançou um novo recurso que chama de “memória” que permite ao ChatGPT “lembrar” suas conversas. A última geração de modelos da startup, o1, exibe a palavra “pensando” enquanto gera uma saída, e a OpenAI afirma que os mesmos modelos são capazes de “raciocínio complexo”.
Isso tudo soa como se estivéssemos bastante próximos da AGI. No entanto, durante uma recente palestra no Hudson Forum, LeCun subestimou os otimistas da IA, como o fundador da xAI, Elon Musk, e o cofundador da Google DeepMind, Shane Legg, que sugerem que a IA em nível humano está logo ali.
“Precisamos de máquinas que entendam o mundo; [máquinas] que possam lembrar coisas, que tenham intuição, senso comum, coisas que possam raciocinar e planejar no mesmo nível que os humanos,” disse LeCun durante a palestra. “Apesar do que você pode ter ouvido de algumas das pessoas mais entusiasmadas, os sistemas de IA atuais não são capazes de nada disso.”
LeCun diz que os modelos de linguagem grandes de hoje, como aqueles que alimentam o ChatGPT e a IA da Meta, estão longe da “IA em nível humano”. A humanidade poderia estar “anos a décadas” longe de alcançar tal coisa, ele disse mais tarde. (Isso não impede seu chefe, Mark Zuckerberg, de perguntar a ele quando a AGI acontecerá, no entanto.)
A razão para isso é simples: esses LLMs funcionam prevendo o próximo token (geralmente algumas letras ou uma palavra curta), e os modelos de imagem/vídeo de hoje estão prevendo o próximo pixel. Em outras palavras, os modelos de linguagem são preditores unidimensionais, e os modelos de imagem/vídeo de IA são preditores bidimensionais. Esses modelos se tornaram bastante bons em prever em suas respectivas dimensões, mas eles realmente não entendem o mundo tridimensional.
Por causa disso, os sistemas modernos de IA não conseguem realizar tarefas simples que a maioria dos humanos pode. LeCun observa como os humanos aprendem a limpar uma mesa de jantar aos 10 anos e a dirigir um carro aos 17 – e aprendem ambas as coisas em questão de horas. Mas mesmo os sistemas de IA mais avançados do mundo hoje, construídos com milhares ou milhões de horas de dados, não conseguem operar de forma confiável no mundo físico.
Para alcançar tarefas mais complexas, LeCun sugere que precisamos construir modelos tridimensionais que possam perceber o mundo ao seu redor e se centrar em um novo tipo de arquitetura de IA: modelos de mundo.
“Um modelo de mundo é seu modelo mental de como o mundo se comporta,” ele explicou. “Você pode imaginar uma sequência de ações que pode tomar, e seu modelo de mundo permitirá que você preveja qual será o efeito da sequência de ações no mundo.”
Considere o “modelo de mundo” em sua própria cabeça. Por exemplo, imagine olhar para um quarto bagunçado e querer deixá-lo limpo. Você pode imaginar como pegar todas as roupas e guardá-las resolveria o problema. Você não precisa tentar vários métodos ou aprender como limpar um quarto primeiro. Seu cérebro observa o espaço tridimensional e cria um plano de ação para alcançar seu objetivo na primeira tentativa. Esse plano de ação é o segredo que os modelos de mundo de IA prometem.
Parte do benefício aqui é que os modelos de mundo podem absorver significativamente mais dados do que os LLMs. Isso também os torna computacionalmente intensivos, razão pela qual os provedores de nuvem estão correndo para se associar a empresas de IA.
Os modelos de mundo são a grande ideia que vários laboratórios de IA estão agora perseguindo, e o termo está rapidamente se tornando a próxima palavra da moda para atrair financiamento de risco. Um grupo de respeitados pesquisadores de IA, incluindo Fei-Fei Li e Justin Johnson, acaba de arrecadar US$ 230 milhões para sua startup, World Labs. A “madrinha da IA” e sua equipe também estão convencidas de que os modelos de mundo desbloquearão sistemas de IA significativamente mais inteligentes. A OpenAI também descreve seu gerador de vídeo Sora não lançado como um modelo de mundo, mas não entrou em detalhes.
LeCun delineou uma ideia para usar modelos de mundo para criar IA em nível humano em um artigo de 2022 sobre “IA orientada a objetivos”, embora ele observe que o conceito tem mais de 60 anos. Em resumo, uma representação base do mundo (como um vídeo de um quarto sujo, por exemplo) e memória são alimentadas em um modelo de mundo. Então, o modelo de mundo prevê como o mundo parecerá com base nessa informação. Em seguida, você dá ao modelo de mundo objetivos, incluindo um estado alterado do mundo que gostaria de alcançar (como um quarto limpo) e também limites para garantir que o modelo não prejudique os humanos para alcançar um objetivo (não me mate no processo de limpar meu quarto, por favor). Então, o modelo de mundo encontra uma sequência de ações para alcançar esses objetivos.
O laboratório de pesquisa em IA de longo prazo da Meta, FAIR ou Pesquisa Fundamental em IA, está ativamente trabalhando para construir IA orientada a objetivos e modelos de mundo, de acordo com LeCun. O FAIR costumava trabalhar com IA para os próximos produtos da Meta, mas LeCun diz que o laboratório mudou nos últimos anos para se concentrar puramente na pesquisa de IA a longo prazo. LeCun afirma que o FAIR nem usa LLMs atualmente.
Os modelos de mundo são uma ideia intrigante, mas LeCun diz que ainda não fizemos muito progresso para trazer esses sistemas à realidade. Existem muitos problemas muito difíceis para chegar de onde estamos hoje, e ele diz que é certamente mais complicado do que pensamos.
“Vai levar anos antes que possamos fazer tudo isso funcionar, se não uma década,” disse LeCun. “Mark Zuckerberg continua me perguntando quanto tempo vai levar.”