Uma nova IA de aprendizado foi deixada à sua própria sorte dentro de uma instância do Minecraft enquanto a inteligência artificial aprende a jogar o jogo por meio da prática, diz a empresa de desenvolvimento de IA SingularityNET e a Aliança de Superinteligência Artificial (ASI Alliance). A IA, chamada AIRIS (Simbolismo Inferido de Reforço Inteligente Autônomo), está essencialmente começando do zero dentro do Minecraft para aprender a jogar o jogo usando apenas o feedback do jogo para ensiná-la.
A IA já foi solta para aprender um jogo antes, mas geralmente em espaços 2D mais lineares. Com o Minecraft, AIRIS pode entrar em um mundo 3D mais complexo e lentamente começar a navegar e explorar para ver o que pode fazer e, mais importante, se a IA pode entender os objetivos de design do jogo sem necessariamente ser informada sobre eles. Como ela reage a mudanças no ambiente? Pode descobrir diferentes caminhos para o mesmo lugar? Pode jogar o jogo com algo que se assemelhe à criatividade que os jogadores humanos empregam no Minecraft?
VentureBeat entrou em contato com a SingularityNET e a ASI Alliance para perguntar por que escolheram especificamente o Minecraft.
“Versões iniciais do AIRIS foram testadas em ambientes de jogos de quebra-cabeça em grade 2D simples”, respondeu um representante da empresa. “Precisávamos testar o sistema em um ambiente 3D que fosse mais complexo e aberto. O Minecraft se encaixa bem nessa descrição, é um jogo muito popular e possui todos os requisitos técnicos necessários para conectar uma IA a ele. O Minecraft também já é usado como um benchmark de Aprendizado por Reforço. Isso nos permitirá comparar diretamente os resultados do AIRIS com algoritmos existentes.”
Eles também forneceram uma explicação mais detalhada de como funciona.
“O agente recebe dois tipos de entrada do ambiente e uma lista de ações que pode realizar. O primeiro tipo de entrada é uma grade 3D de 5 x 5 x 5 dos nomes dos blocos que cercam o agente. É assim que o agente “vê” o mundo. O segundo tipo de entrada são as coordenadas atuais do agente no mundo. Isso nos dá a opção de dar ao agente uma localização que queremos que ele alcance. A lista de ações nesta primeira versão é mover ou pular em uma das 8 direções (as quatro direções cardeais e diagonalmente) totalizando 16 ações. Versões futuras terão muitas mais ações à medida que expandimos as capacidades do agente para incluir mineração, colocação de blocos, coleta de recursos, combate a mobs e criação.
“O agente começa no modo ‘Exploração Livre’ e busca explorar o mundo ao seu redor. Construindo um mapa interno de onde esteve que pode ser visualizado com a ferramenta de visualização incluída. Ele aprende a navegar pelo mundo e, ao encontrar obstáculos como árvores, montanhas, cavernas, etc., aprende e se adapta a eles. Por exemplo, se cair em uma caverna profunda, explorará seu caminho para fora. Seu objetivo é preencher qualquer espaço vazio em seu mapa interno. Portanto, busca maneiras de chegar a lugares que ainda não viu.
“Se dermos ao agente um conjunto de coordenadas, ele parará de explorar livremente e navegará até onde queremos que ele vá. Explorando áreas que nunca viu antes. Isso pode ser no topo de uma montanha, no fundo de uma caverna ou no meio de um oceano. Uma vez que ele atinge seu destino, podemos dar a ele outro conjunto de coordenadas ou devolvê-lo à exploração livre para explorar a partir de lá.
“A exploração livre e a capacidade de navegar por áreas desconhecidas é o que diferencia o AIRIS do Aprendizado por Reforço tradicional. Essas são tarefas que o RL não é capaz de realizar, independentemente de quantos milhões de episódios de treinamento ou quanta computação você forneça.
Para o desenvolvimento de jogos, um caso de uso bem-sucedido para o AIRIS pode incluir testes automáticos de bugs e estresse para software. Um hipotético AIRIS que pode percorrer toda a extensão de Fallout 4 poderia criar relatórios de bugs ao interagir com NPCs ou inimigos, por exemplo. Embora os testadores de garantia de qualidade ainda precisem verificar o que a IA documentou, isso aceleraria um processo laborioso e, de outra forma, frustrante para o desenvolvimento.
Além disso, é o primeiro passo em um mundo virtual para aprendizado autodirigido para IA em mundos complexos e omnidirecionais. Isso deve ser empolgante para entusiastas de IA como um todo.