O que são ‘modelos de mundo’ em IA e por que eles são importantes?

Modelos de mundo, também conhecidos como simuladores de mundo, estão sendo promovidos por alguns como a próxima grande novidade em IA.

A pioneira da IA, Fei-Fei Li, do World Labs, arrecadou 230 milhões de dólares para construir “grandes modelos de mundo”, e a DeepMind contratou um dos criadores do gerador de vídeo da OpenAI, Sora, para trabalhar em “simuladores de mundo”. (Sora foi lançado na segunda-feira; aqui estão algumas impressões iniciais.)

Mas o que são essas coisas?

Modelos de mundo se inspiram nos modelos mentais que os humanos desenvolvem naturalmente. Nossos cérebros pegam as representações abstratas de nossos sentidos e as transformam em uma compreensão mais concreta do mundo ao nosso redor, produzindo o que chamamos de “modelos” muito antes de a IA adotar a frase. As previsões que nossos cérebros fazem com base nesses modelos influenciam como percebemos o mundo.

Um artigo dos pesquisadores de IA David Ha e Jürgen Schmidhuber dá o exemplo de um batedor de beisebol. Batedores têm milissegundos para decidir como balançar o bastão – menos do que o tempo que leva para os sinais visuais chegarem ao cérebro. A razão pela qual eles conseguem acertar uma bola rápida de 100 milhas por hora é porque podem prever instintivamente para onde a bola irá, dizem Ha e Schmidhuber.

“Para jogadores profissionais, tudo isso acontece subconscientemente”, escrevem os pesquisadores. “Os músculos deles balançam reflexivamente o bastão no momento e local certos, de acordo com as previsões de seus modelos internos. Eles podem agir rapidamente com base em suas previsões do futuro, sem a necessidade de elaborar conscientemente possíveis cenários futuros para formar um plano.”

É esses aspectos de raciocínio subconsciente dos modelos de mundo que alguns acreditam serem pré-requisitos para a inteligência em nível humano.

Modelando o mundo

Embora o conceito exista há décadas, os modelos de mundo ganharam popularidade recentemente, em parte devido às suas aplicações promissoras no campo do vídeo gerado por IA.

A maioria, senão todos, os vídeos gerados por IA tendem a entrar no território do vale inquietante. Assista a eles por tempo suficiente e algo bizarro acontecerá, como membros se torcendo e se fundindo uns aos outros.

Enquanto um modelo gerador treinado em anos de vídeo pode prever com precisão que uma bola de basquete quica, ele não tem realmente ideia do porquê – assim como os modelos de linguagem não entendem realmente os conceitos por trás das palavras e frases. Mas um modelo de mundo com uma compreensão básica do porquê a bola de basquete quica como faz será melhor em mostrá-la fazendo isso.

Para possibilitar esse tipo de insight, os modelos de mundo são treinados em uma variedade de dados, incluindo fotos, áudio, vídeos e texto, com a intenção de criar representações internas de como o mundo funciona e a capacidade de raciocinar sobre as consequências das ações.

Um exemplo do modelo de geração de vídeo Gen-3 da startup de IA Runway.

“Um espectador espera que o mundo que está assistindo se comporte de maneira semelhante à sua realidade”, disse Alex Mashrabov, ex-chefe de IA da Snap e CEO da Higgsfield, que está construindo modelos generativos para vídeo. “Se uma pena cai com o peso de um bigorna ou uma bola de boliche dispara centenas de pés para o alto, é chocante e tira o espectador do momento. Com um modelo de mundo forte, em vez de um criador definir como cada objeto deve se mover – o que é tedioso, trabalhoso e um mau uso do tempo – o modelo entenderá isso.”

Mas uma melhor geração de vídeo é apenas a ponta do iceberg para os modelos de mundo. Pesquisadores, incluindo o cientista-chefe de IA da Meta, Yann LeCun, dizem que os modelos poderiam algum dia ser usados para previsões e planejamentos sofisticados tanto no reino digital quanto físico.

Em uma palestra no início deste ano, LeCun descreveu como um modelo de mundo poderia ajudar a alcançar um objetivo desejado por meio do raciocínio. Um modelo com uma representação básica de um “mundo” (por exemplo, um vídeo de um quarto sujo), dado um objetivo (um quarto limpo), poderia elaborar uma sequência de ações para alcançar esse objetivo (implantar aspiradores para varrer, limpar a louça, esvaziar o lixo) não porque esse é um padrão que ele observou, mas porque ele sabe em um nível mais profundo como passar de sujo para limpo.

“Precisamos de máquinas que entendam o mundo; [máquinas] que possam lembrar coisas, que tenham intuição, tenham bom senso – coisas que possam raciocinar e planejar no mesmo nível que os humanos”, disse LeCun. “Apesar do que você possa ter ouvido de algumas das pessoas mais entusiastas, os sistemas de IA atuais não são capazes de nada disso.”

Enquanto LeCun estima que estamos pelo menos uma década longe dos modelos de mundo que ele imagina, os modelos de mundo de hoje estão mostrando promessas como simuladores de física elementares.

A Sora controlando um jogador no Minecraft – e renderizando o mundo.

A OpenAI observa em um blog que a Sora, que considera ser um modelo de mundo, pode simular ações como um pintor deixando pinceladas em uma tela. Modelos como a Sora – e a própria Sora – também podem simular efetivamente jogos de vídeo. Por exemplo, a Sora pode renderizar uma interface de usuário e um mundo de jogo semelhantes a Minecraft.

Os futuros modelos de mundo podem ser capazes de gerar mundos 3D sob demanda para jogos, fotografia virtual e mais, disse o cofundador do World Labs, Justin Johnson, em um episódio do podcast a16z.

“Já temos a capacidade de criar mundos virtuais e interativos, mas custa centenas e centenas de milhões de dólares e um monte de tempo de desenvolvimento”, disse Johnson. “[Modelos de mundo] não apenas permitirão que você obtenha uma imagem ou um clipe, mas um mundo 3D totalmente simulado, vibrante e interativo.”

Altos obstáculos

Embora o conceito seja atraente, muitos desafios técnicos estão no caminho.

Treinar e executar modelos de mundo requer um poder computacional massivo, mesmo em comparação com a quantidade atualmente utilizada por modelos generativos. Enquanto alguns dos modelos de linguagem mais recentes podem rodar em um smartphone moderno, a Sora (considerada um modelo de mundo inicial) exigiria milhares de GPUs para treinar e executar, especialmente se seu uso se tornar comum.

Modelos de mundo, como todos os modelos de IA, também alucinam – e internalizam preconceitos em seus dados de treinamento. Um modelo de mundo treinado em grande parte com vídeos de clima ensolarado em cidades europeias pode ter dificuldades em compreender ou representar cidades coreanas em condições de neve, por exemplo, ou simplesmente fazê-lo de forma incorreta.

Uma falta geral de dados de treinamento ameaça agravar esses problemas, diz Mashrabov.

“Vimos modelos sendo realmente limitados com gerações de pessoas de um certo tipo ou raça”, disse ele. “Os dados de treinamento para um modelo de mundo devem ser amplos o suficiente para cobrir um conjunto diverso de cenários, mas também altamente específicos para que a IA possa entender profundamente as nuances desses cenários.”

Em uma postagem recente, o CEO da startup de IA Runway, Cristóbal Valenzuela, diz que problemas de dados e engenharia impedem os modelos de hoje de capturar com precisão o comportamento dos habitantes de um mundo (por exemplo, humanos e animais). “Os modelos precisarão gerar mapas consistentes do ambiente”, disse ele, “e a capacidade de navegar e interagir nesses ambientes.”

Um vídeo gerado pela Sora.

Se todos os principais obstáculos forem superados, no entanto, Mashrabov acredita que os modelos de mundo poderiam “conectar mais robustamente” a IA com o mundo real – levando a avanços não apenas na geração de mundos virtuais, mas em robótica e na tomada de decisões da IA.

Eles também poderiam gerar robôs mais capazes.

Os robôs de hoje são limitados no que podem fazer porque não têm consciência do mundo ao seu redor (ou de seus próprios corpos). Modelos de mundo poderiam dar a eles essa consciência, disse Mashrabov – pelo menos até certo ponto.

“Com um modelo de mundo avançado, uma IA poderia desenvolver uma compreensão pessoal de qualquer cenário em que fosse colocada”, disse ele, “e começar a raciocinar possíveis soluções.”

Fonte

Compartilhe esse conteúdo: