Embora possa parecer que a inteligência artificial está se tornando perigosamente inteligente, ainda existem alguns conceitos básicos que a IA não compreende tão bem quanto os humanos.
Em março, reportamos que modelos de linguagem grandes (LLMs) populares têm dificuldades para dizer as horas e interpretar calendários. Agora, um estudo publicado esta semana na Nature Human Behaviour revela que ferramentas de IA como o ChatGPT também são incapazes de entender conceitos familiares, como flores, tão bem quanto os humanos. De acordo com o artigo, representar com precisão conceitos físicos é um desafio para o aprendizado de máquina treinado apenas com texto e, às vezes, imagens.
“Um grande modelo de linguagem não pode cheirar uma rosa, tocar as pétalas de uma margarida ou andar por um campo de flores silvestres”, disse Qihui Xu, autor principal do estudo e pesquisador pós-doutoral em psicologia na Universidade Estadual de Ohio, em uma declaração da universidade. “Sem essas experiências sensoriais e motoras, ele não pode realmente representar o que é uma flor em toda a sua riqueza. O mesmo se aplica a alguns outros conceitos humanos.”
A equipe testou humanos e quatro modelos de IA—GPT-3.5 e GPT-4 da OpenAI, e PaLM e Gemini do Google—em sua compreensão conceitual de 4.442 palavras, incluindo termos como flor, casco, humorístico e balançar. Xu e seus colegas compararam os resultados a duas classificações psicocognitivas padrão: as Normas de Glasgow (a classificação de palavras com base em sentimentos como excitação, dominância, familiaridade, etc.) e as Normas de Lancaster (a classificação de palavras com base em percepções sensoriais e ações corporais).
A abordagem das Normas de Glasgow viu os pesquisadores fazendo perguntas como quão emocionalmente excitante uma flor é e quão fácil é imaginar uma. As Normas de Lancaster, por outro lado, envolveram perguntas incluindo quanto se pode experimentar uma flor através do cheiro e quanto uma pessoa pode experimentar uma flor com seu torso.
Em comparação com os humanos, os LLMs demonstraram uma forte compreensão de palavras sem associações sensorimotoras (conceitos como “justiça”), mas tiveram dificuldades com palavras ligadas a conceitos físicos (como “flor”, que podemos ver, cheirar, tocar, etc.). A razão para isso é bastante simples—o ChatGPT não tem olhos, nariz ou neurônios sensoriais (ainda) e, portanto, não pode aprender através desses sentidos. O melhor que ele pode fazer é aproximar-se, apesar do fato de que eles treinam em mais texto do que uma pessoa experimenta em toda a vida, explicou Xu.
“Do intenso aroma de uma flor, ao toque vívido e sedoso quando acariciamos as pétalas, até a profunda sensação estética visual, a representação humana de ‘flor’ une essas diversas experiências e interações em uma categoria coerente”, escreveram os pesquisadores no estudo. “Esse tipo de aprendizado perceptual associativo, onde um conceito se torna um núcleo de significados interconectados e forças sensoriais, pode ser difícil de alcançar apenas através da linguagem.”
De fato, os LLMs treinados em texto e imagens demonstraram uma melhor compreensão de conceitos visuais do que seus homólogos apenas de texto. Isso não quer dizer, no entanto, que a IA estará para sempre limitada a informações linguísticas e visuais. Os LLMs estão constantemente melhorando e podem um dia ser capazes de representar melhor conceitos físicos por meio de dados sensorimotores e/ou robótica, de acordo com Xu. A pesquisa dela e de seus colegas tem implicações importantes para as interações entre IA e humanos, que estão se tornando cada vez mais (e, sejamos honestos, preocupantemente) íntimas.
Por enquanto, no entanto, uma coisa é certa: “A experiência humana é muito mais rica do que palavras sozinhas podem conter”, concluiu Xu.