Modelos de mundo, também conhecidos como simuladores de mundo, estão sendo considerados por alguns como a próxima grande novidade em IA.
A pioneira em IA, Fei-Fei Li, levantou 230 milhões de dólares para construir “grandes modelos de mundo”, e a DeepMind contratou um dos criadores do gerador de vídeo da OpenAI, Sora, para trabalhar em “simuladores de mundo”.
Mas o que são essas coisas?
Modelos de mundo se inspiram nos modelos mentais do mundo que os humanos desenvolvem naturalmente. Nossos cérebros pegam as representações abstratas de nossos sentidos e as transformam em uma compreensão mais concreta do mundo ao nosso redor, produzindo o que chamamos de “modelos” muito antes de a IA adotar a frase. As previsões que nossos cérebros fazem com base nesses modelos influenciam como percebemos o mundo.
Um artigo dos pesquisadores de IA David Ha e Jurgen Schmidhuber dá o exemplo de um rebatedor de beisebol. Rebatedores têm milissegundos para decidir como balançar o bastão – menos tempo do que leva para os sinais visuais chegarem ao cérebro. A razão pela qual eles conseguem acertar uma bola rápida de 100 milhas por hora é porque podem prever instintivamente para onde a bola irá, dizem Ha e Schmidhuber.
“Para jogadores profissionais, tudo isso acontece subconscientemente”, escrevem os pesquisadores. “Os músculos deles balançam reflexivamente o bastão no momento e local certos, alinhados com as previsões de seus modelos internos. Eles podem agir rapidamente com base em suas previsões do futuro sem a necessidade de elaborar conscientemente possíveis cenários futuros para formar um plano.”
São esses aspectos de raciocínio subconsciente dos modelos de mundo que alguns acreditam serem pré-requisitos para a inteligência em nível humano.
Modelando o mundo
Embora o conceito exista há décadas, os modelos de mundo ganharam popularidade recentemente, em parte por causa de suas aplicações promissoras no campo do vídeo gerado por IA.
A maioria, senão todos, os vídeos gerados por IA tendem a entrar no território do vale inquietante. Assistindo-os por tempo suficiente, algo bizarro acontecerá, como membros se torcendo e se fundindo uns aos outros.
Enquanto um modelo gerador treinado em anos de vídeo pode prever com precisão que uma bola de basquete quica, ele não tem realmente ideia do porquê – assim como modelos de linguagem não compreendem realmente os conceitos por trás de palavras e frases. Mas um modelo de mundo com até mesmo uma compreensão básica do porquê a bola de basquete quica será melhor em mostrar isso.
Para possibilitar esse tipo de insight, os modelos de mundo são treinados em uma variedade de dados, incluindo fotos, áudio, vídeos e texto, com a intenção de criar representações internas de como o mundo funciona e a capacidade de raciocinar sobre as consequências das ações.
Uma amostra do modelo de geração de vídeo Gen-3 da startup de IA Runway.
“Um espectador espera que o mundo que está assistindo se comporte de maneira semelhante à sua realidade”, disse Mashrabov. “Se uma pena cai com o peso de um bigorna ou uma bola de boliche dispara centenas de pés para o ar, isso é perturbador e tira o espectador do momento. Com um modelo de mundo forte, em vez de um criador definir como cada objeto deve se mover – o que é tedioso, complicado e um mau uso do tempo – o modelo entenderá isso.”
Mas uma melhor geração de vídeo é apenas a ponta do iceberg para os modelos de mundo. Pesquisadores, incluindo o cientista-chefe de IA da Meta, Yann LeCun, dizem que os modelos poderiam um dia ser usados para previsões e planejamentos sofisticados tanto no reino digital quanto no físico.
Em uma palestra no início deste ano, LeCun descreveu como um modelo de mundo poderia ajudar a alcançar um objetivo desejado por meio do raciocínio. Um modelo com uma representação básica de um “mundo” (por exemplo, um vídeo de um quarto sujo), dado um objetivo (um quarto limpo), poderia elaborar uma sequência de ações para alcançar esse objetivo (implantar aspiradores para varrer, limpar a louça, esvaziar o lixo) não porque é um padrão que observou, mas porque sabe em um nível mais profundo como ir de sujo a limpo.
“Precisamos de máquinas que entendam o mundo; [máquinas] que possam lembrar de coisas, que tenham intuição, tenham senso comum – coisas que possam raciocinar e planejar no mesmo nível que os humanos”, disse LeCun. “Apesar do que você pode ter ouvido de algumas das pessoas mais entusiasmadas, os sistemas de IA atuais não são capazes de nada disso.”
Enquanto LeCun estima que estamos pelo menos uma década longe dos modelos de mundo que ele imagina, os modelos de mundo de hoje estão mostrando promessas como simuladores de física elementares.
Sora controlando um jogador no Minecraft – e renderizando o mundo.
A OpenAI observa em um blog que Sora, que considera ser um modelo de mundo, pode simular ações como um pintor deixando pinceladas em uma tela. Modelos como Sora – e Sora em si – também podem simular efetivamente videogames. Por exemplo, Sora pode renderizar uma interface de usuário e um mundo de jogo semelhantes ao Minecraft.
Modelos de mundo futuros podem ser capazes de gerar mundos 3D sob demanda para jogos, fotografia virtual e mais, disse o cofundador do World Labs, Justin Johnson, em um episódio do podcast a16z.
“Já temos a capacidade de criar mundos virtuais interativos, mas custa centenas e centenas de milhões de dólares e muito tempo de desenvolvimento”, disse Johnson. “[Modelos de mundo] permitirão que você não apenas obtenha uma imagem ou um clipe, mas um mundo 3D totalmente simulado, vibrante e interativo.”
Altos obstáculos
Embora o conceito seja atraente, muitos desafios técnicos estão no caminho.
Treinar e executar modelos de mundo requer um poder computacional massivo, mesmo em comparação com a quantidade atualmente usada por modelos geradores. Enquanto alguns dos modelos de linguagem mais recentes podem rodar em um smartphone moderno, Sora (considerado um modelo de mundo inicial) exigiria milhares de GPUs para treinar e executar, especialmente se seu uso se tornar comum.
Modelos de mundo, como todos os modelos de IA, também alucinam – e internalizam preconceitos em seus dados de treinamento. Um modelo de mundo treinado em grande parte com vídeos de clima ensolarado em cidades europeias pode ter dificuldade em compreender ou retratar cidades coreanas em condições de neve, por exemplo, ou simplesmente fazê-lo de maneira incorreta.
Uma falta geral de dados de treinamento ameaça agravar esses problemas, diz Mashrabov.
“Vimos modelos sendo realmente limitados com gerações de pessoas de um certo tipo ou raça”, disse ele. “Os dados de treinamento para um modelo de mundo devem ser amplos o suficiente para cobrir um conjunto diversificado de cenários, mas também altamente específicos para que a IA possa entender profundamente as nuances desses cenários.”
Em uma postagem recente, o CEO da startup de IA Runway, Cristóbal Valenzuela, diz que questões de dados e engenharia impedem os modelos de hoje de capturar com precisão o comportamento dos habitantes de um mundo (por exemplo, humanos e animais). “Os modelos precisarão gerar mapas consistentes do ambiente”, disse ele, “e a capacidade de navegar e interagir nesses ambientes.”
Um vídeo gerado por Sora.
Se todos os principais obstáculos forem superados, no entanto, Mashrabov acredita que os modelos de mundo poderiam “conectar de forma mais robusta” a IA com o mundo real – levando a avanços não apenas na geração de mundos virtuais, mas também em robótica e tomada de decisão em IA.
Eles também poderiam gerar robôs mais capazes.
Os robôs de hoje são limitados no que podem fazer porque não têm consciência do mundo ao seu redor (ou de seus próprios corpos). Modelos de mundo poderiam dar a eles essa consciência, disse Mashrabov – pelo menos até certo ponto.
“Com um modelo de mundo avançado, uma IA poderia desenvolver uma compreensão pessoal de qualquer cenário em que esteja colocada”, disse ele, “e começar a raciocinar sobre possíveis soluções.”