Aparentemente não contente com seu controle sobre este mundo, o Google está em processo de aumentar sua equipe no laboratório de pesquisa DeepMind para construir modelos generativos capazes de simular o mundo físico. O projeto — que será liderado por Tim Brooks, um dos responsáveis pela construção do gerador de vídeo da OpenAI, Sora — será uma parte crítica da tentativa da empresa de alcançar a inteligência geral artificial, de acordo com as descrições de trabalho relacionadas à nova equipe.
Brooks, que se juntou à DeepMind após deixar a OpenAI em outubro, e sua equipe têm “planos ambiciosos para fazer modelos generativos massivos que simulam o mundo.” De acordo com as descrições de função, o esforço para construir modelos de mundo “impulsionará numerosos domínios, como raciocínio visual e simulação, planejamento para agentes incorporados e entretenimento interativo em tempo real.” Se você estiver disposto a assumir uma dessas funções, talvez consiga descobrir o que essas vaguidões significam e nos informar.
Um modelo de mundo, colocado da maneira mais simples possível, busca tipicamente simular como o mundo realmente funciona. Modelos generativos como o Sora são capazes de replicar coisas que já viram antes dentro de seus dados de treinamento, mas não têm compreensão real de por que aquilo acontece. Portanto, pode gerar com sucesso um vídeo de uma pessoa arremessando uma bola de beisebol, mas não tem compreensão da física do que está acontecendo. Modelos de mundo visam fornecer à máquina informações suficientes para realmente entender como uma ação acontece e o resultado provável disso.
O principal cientista de IA da Meta, Yann LeCun, descreveu modelos de mundo dessa forma durante um discurso no Hudson Forum no início deste ano: “Um modelo de mundo é seu modelo mental de como o mundo se comporta… Você pode imaginar uma sequência de ações que poderia tomar, e seu modelo de mundo permitirá que você preveja qual será o efeito da sequência de ações no mundo.”
Modelos de mundo são difíceis de construir por várias razões, incluindo a enorme quantidade de computação necessária para executar um modelo e a falta de dados de treinamento suficientes para criar um modelo preciso, resultando na maioria dos modelos de mundo funcionando apenas para contextos limitados e específicos.
A equipe da DeepMind parece determinada a expandir o modelo de mundo. O plano é construir ferramentas de “geração interativa em tempo real” sobre os modelos e potencialmente investigar como poderiam integrar seu modelo de mundo no grande modelo de linguagem Gemini do Google.
Uma área provável que a DeepMind tentará abordar são os videogames. A descrição do trabalho para a nova equipe observa que eles colaborarão com as equipes Veo e Genie do Google. Genie é o gerador de vídeo semelhante ao Sora do Google e Genie é um modelo de mundo existente que pode simular ambientes 3D em tempo real. A indústria de videogames já está ansiosa para adotar ferramentas de IA, deslocando milhares de trabalhadores. Uma pesquisa da CVL Economics descobriu que mais de 86% de todas as empresas de jogos já adotaram ferramentas de IA generativa e quase 15% de todos os empregos em jogos poderiam ser afetados até 2026.
Talvez melhorar este mundo seja um uso melhor do tempo do que modelá-lo.