À medida que as técnicas convencionais de avaliação de IA se mostram inadequadas, os desenvolvedores de IA estão recorrendo a maneiras mais criativas de avaliar as capacidades dos modelos de IA generativa. Para um grupo de desenvolvedores, isso é o Minecraft, o jogo de construção em sandbox de propriedade da Microsoft.
O site Minecraft Benchmark (ou MC-Bench) foi desenvolvido colaborativamente para colocar modelos de IA uns contra os outros em desafios diretos para responder a prompts com criações no Minecraft. Os usuários podem votar em qual modelo fez um trabalho melhor e só depois de votar podem ver qual IA fez cada construção no Minecraft.
Para Adi Singh, o aluno da 12ª série que iniciou o MC-Bench, o valor do Minecraft não está tanto no jogo em si, mas na familiaridade que as pessoas têm com ele — afinal, é o jogo de vídeo mais vendido de todos os tempos. Mesmo para pessoas que não jogaram o jogo, ainda é possível avaliar qual representação blocada de um abacaxi é melhor realizada.
“O Minecraft permite que as pessoas vejam o progresso [do desenvolvimento de IA] de forma muito mais fácil,” disse Singh ao TechCrunch. “As pessoas estão acostumadas ao Minecraft, ao visual e à atmosfera.”
Atualmente, o MC-Bench lista oito pessoas como colaboradores voluntários. A Anthropic, Google, OpenAI e Alibaba subsidiaram o uso de seus produtos para executar prompts de benchmark, segundo o site do MC-Bench, mas as empresas não estão de outra forma afiliadas.
“Atualmente, estamos apenas fazendo construções simples para refletir o quanto evoluímos desde a era do GPT-3, mas [nós] poderíamos ver um aumento para esses planos de longo prazo e tarefas orientadas a objetivos,” disse Singh. “Os jogos podem ser apenas um meio para testar o raciocínio agente que é mais seguro do que na vida real e mais controlável para fins de teste, tornando-o mais ideal aos meus olhos.”
Outros jogos como Pokémon Red, Street Fighter e Pictionary foram usados como benchmarks experimentais para IA, em parte porque a arte de avaliar IA é notoriamente complicada.
Os pesquisadores costumam testar modelos de IA em avaliações padronizadas, mas muitos desses testes dão uma vantagem caseira à IA. Por causa da maneira como são treinados, os modelos são naturalmente talentosos em certos tipos estreitos de resolução de problemas, particularmente aqueles que exigem memorização ou extrapolação básica.
Simplificando, é difícil entender o que significa que o GPT-4 da OpenAI pode pontuar no 88º percentil no LSAT, mas não consegue discernir quantas letras “R” estão na palavra “morango”. O Claude 3.7 Sonnet da Anthropic alcançou 62,3% de precisão em um benchmark padronizado de engenharia de software, mas é pior em jogar Pokémon do que a maioria das crianças de cinco anos.
O MC-Bench é tecnicamente um benchmark de programação, já que os modelos são solicitados a escrever código para criar a construção solicitada, como “Frosty the Snowman” ou “uma encantadora cabana tropical em uma praia de areia branca e limpa.”
Mas é mais fácil para a maioria dos usuários do MC-Bench avaliar se um boneco de neve parece melhor do que se aprofundar no código, o que dá ao projeto um apelo mais amplo — e, assim, o potencial de coletar mais dados sobre quais modelos consistentemente se saem melhor.
Se essas pontuações representam muito em termos de utilidade da IA é uma questão debatível, é claro. Singh afirma que são um sinal forte, no entanto.
“A classificação atual reflete bastante a minha própria experiência ao usar esses modelos, que é diferente de muitos benchmarks puramente textuais,” disse Singh. “Talvez [o MC-Bench] possa ser útil para as empresas saberem se estão indo na direção certa.”