A IA Tem Dificuldade em Ler Relógios

Hoje em dia, a inteligência artificial pode gerar imagens fotorealistas, escrever romances, fazer sua lição de casa e até prever estruturas de proteínas. No entanto, novas pesquisas revelam que ela frequentemente falha em uma tarefa muito básica: dizer as horas.

Pesquisadores da Universidade de Edimburgo testaram a capacidade de sete modelos de linguagem multimodal bem conhecidos – o tipo de IA que pode interpretar e gerar vários tipos de mídia – para responder a perguntas relacionadas ao tempo com base em diferentes imagens de relógios ou calendários. Seu estudo, que será publicado em abril e atualmente está hospedado no servidor de pré-impressão arXiv, demonstra que os LLMs têm dificuldade com essas tarefas básicas.

“A capacidade de interpretar e raciocinar sobre o tempo a partir de entradas visuais é crítica para muitas aplicações do mundo real – que vão desde agendamento de eventos até sistemas autônomos”, escreveram os pesquisadores no estudo. “Apesar dos avanços nos modelos de linguagem multimodal (MLLMs), a maior parte do trabalho se concentrou na detecção de objetos, legendagem de imagens ou compreensão de cenas, deixando a inferência temporal pouco explorada.”

A equipe testou o GPT-4o e o GPT-o1 da OpenAI; o Gemini 2.0 da Google DeepMind; o Claude 3.5 Sonnet da Anthropic; o Llama 3.2-11B-Vision-Instruct da Meta; o Qwen2-VL7B-Instruct da Alibaba; e o MiniCPM-V-2.6 da ModelBest. Eles alimentaram os modelos com diferentes imagens de relógios analógicos – cronômetros com números romanos, diferentes cores de mostrador e até alguns sem o ponteiro dos segundos – além de 10 anos de imagens de calendários.

Para as imagens dos relógios, os pesquisadores perguntaram aos LLMs: que horas estão mostradas no relógio da imagem dada? Para as imagens do calendário, os pesquisadores fizeram perguntas simples, como: que dia da semana é o Dia de Ano Novo? e consultas mais difíceis, incluindo: qual é o 153º dia do ano?

“A leitura de relógios analógicos e a compreensão de calendários envolvem etapas cognitivas intrincadas: exigem reconhecimento visual detalhado (por exemplo, posição do ponteiro do relógio, layout da célula do dia) e raciocínio numérico não trivial (por exemplo, cálculo de deslocamentos de dias)”, explicaram os pesquisadores.

No geral, os sistemas de IA não se saíram bem. Eles leram a hora em relógios analógicos corretamente menos de 25% das vezes. Eles tiveram dificuldades com relógios que apresentavam números romanos e ponteiros estilizados, assim como com relógios que não tinham o ponteiro dos segundos, indicando que o problema pode advir da detecção dos ponteiros e da interpretação dos ângulos no mostrador do relógio, segundo os pesquisadores.

O Gemini-2.0 do Google obteve a melhor pontuação na tarefa do relógio da equipe, enquanto o GPT-o1 foi preciso na tarefa do calendário 80% das vezes – um resultado muito melhor do que seus concorrentes. Mas mesmo assim, o MLLM mais bem-sucedido na tarefa do calendário ainda cometeu erros cerca de 20% das vezes.

“A maioria das pessoas consegue dizer as horas e usar calendários desde cedo. Nossos achados destacam uma lacuna significativa na capacidade da IA de realizar o que são habilidades bastante básicas para as pessoas”, disse Rohit Saxena, coautor do estudo e estudante de doutorado na Escola de Informática da Universidade de Edimburgo, em uma declaração da universidade. “Essas deficiências devem ser abordadas se os sistemas de IA forem ser integrados com sucesso em aplicações do mundo real sensíveis ao tempo, como agendamento, automação e tecnologias assistivas.”

Portanto, enquanto a IA pode ser capaz de completar sua lição de casa, não conte com ela para cumprir prazos.

Fonte

Compartilhe esse conteúdo: