O novo filme de Ari Aster, o prodígio do horror, ‘Eddington’, dividiu o público e inspirou muitos debates online sobre o que exatamente o diretor está tentando dizer sobre nossa relação coletiva com a tecnologia (dica: provavelmente não é boa). A história gira em torno de uma pequena cidade no Texas que mergulha em um caos impulsionado pelas redes sociais durante a pandemia de covid-19. O filme estrela Joaquin Phoenix como o xerife local Joe Cross, que se envolve em conflitos com o prefeito da cidade, interpretado por Pedro Pascal, enquanto o resto da comunidade perde a cabeça em várias disputas políticas e culturais.
A história do filme é complicada e cheia de subtramas, mas uma das linhas narrativas mais intrigantes envolve a instalação controversa de um novo centro de dados perto dos limites da cidade. A empresa por trás da nova instalação ominosa tem um nome peculiar: SolidGoldMagikarp. Acontece que esse nome parece ser uma referência a um conceito relativamente obscuro no desenvolvimento de inteligência artificial conhecido como “tokens de glitch”.
No mundo do treinamento de IA, o processo de “tokenização” envolve traduzir texto humano em dados numéricos que podem ser interpretados pelo LLM. Para fazer isso, os pesquisadores alimentam grandes quantidades de texto humano em programas de software chamados “tokenizers”. Os tokenizers traduzem os dados brutos de algo que os humanos podem entender em dados analisados projetados para o consumo da máquina, chamados de “tokens”. Os tokens são então alimentados em um modelo de linguagem quando está sendo “treinado”. O processo de treinamento envolve ensinar um algoritmo a interagir com um humano — essa é a maneira como chatbots como o ChatGPT aprendem a responder ao prompt de um humano e produzem uma saída, ou resposta.
A tokenização pode ter um benefício fiscal para as empresas, pois pode tornar o esforço de processar grandes quantidades de dados mais eficiente e menos custoso, e um tokenizer pode ser comparado a um compilador de software que traduz a entrada humana em código binário que um computador pode entender.
Modelos de linguagem grandes são apenas algoritmos preditivos projetados para construir linguagem com base em prompts humanos. Como o auto-correção, o ChatGPT é projetado para aprender sequências de palavras e regurgitá-las. “Isso é literalmente tudo o que eles fazem”, disse Jessica Rumbelow, CEO da empresa de IA Leap Labs, ao Gizmodo. “Então, você colocaria 1, 2, 3, 4, e o modelo é treinado para prever 5”, ela ofereceu como exemplo.
Tokens, inseridos em LLMs durante o processo de treinamento de IA, são uma parte crítica de ensinar um programa a como falar com humanos. Há uma exceção importante a essa regra, no entanto, e esse é o fenômeno conhecido como “tokens de glitch”. Rumbelow disse que o sistema de tokens “normalmente funciona muito bem, exceto quando você tem tokens que o modelo nunca viu” antes. Quando um LLM encontra um token que não foi treinado, pode produzir comportamentos muito estranhos no programa.
SolidGoldMagikarp é um desses “tokens de glitch” que, no passado, introduziu comportamentos bizarros em LLMs. Rumbelow saberia. Ela e seu parceiro de pesquisa, Matthew Watkins, descobriram esse token de glitch particular quando estavam investigando o fenômeno de tokens anômalos. Rumbelow diz que quando o token foi inserido no LLM, produziu resultados bizarros. O programa pode balbuciar bobagens, pronunciar frases e sentimentos oblíquos e ominosos, ou exibir comportamento agressivo e hostil em relação ao usuário.
“Achamos que é o que acontece quando o modelo não viu aquele token durante seu processo de treinamento”, disse Rumbelow. A IA “não sabe o que fazer com a entrada” porque nunca a viu antes, ela disse.
Aviso: Spoilers à Frente!
Em resumo, frases como SolidGoldMagikarp são expressões obscuras que podem fazer um modelo de IA ficar temporariamente louco. Como SolidGoldMagikarp se liga aos temas do novo filme de Aster? Isso é um palpite de qualquer um, mas você poderia facilmente aventar várias interpretações.
Vale a pena notar que, apesar de sua variedade, os filmes de Aster têm praticamente todos o mesmo final. Cada filme termina com as forças das trevas triunfando sobre o protagonista da história. Em cada caso, o personagem se torna parte dos planos conspiratórios da força sombria. Em ‘Hereditary’, a família Graham se torna peões impotentes em uma cerimônia demoníaca de um coven. Em ‘Midsommar’, a raiva reprimida de Dani é usada contra seu namorado pelo Hårga. Em ‘Beau is Afraid’, o personagem titular falha em escapar da teia sufocante de sua mãe, e toda a sua vida se torna pouco mais do que a base para um ritual kafkiano de humilhação.
Em ‘Eddington’ — um filme sobre nossa relação problemática com a tecnologia — a força sombria triunfante é a própria internet, e os habitantes da cidade — particularmente Joe — estão presos em suas maquinações impulsionadas por dados. O centro de dados, a manifestação física da dominância da internet sobre nossas vidas, é o verdadeiro vencedor do filme, e todos os personagens humanos se tornam seus emissários, peões ou vítimas. A decisão de Aster de nomear o centro de dados após uma palavra rebelde que, através de uma espécie de encantamento digital, pode fazer um sistema normalmente são ficar fora de controle pode ser sua maneira de referenciar o que a tecnologia parece ter feito a todos nós enquanto toma conta de nossas vidas, e é provavelmente um aviso do que ainda está por vir.
