As Capacidades da IA Podem Estar Superestimadas em Benchmarks Falsos, Afirma Estudo

Você sabe todos aqueles relatórios sobre modelos de inteligência artificial que passam com sucesso no exame da ordem ou alcançam inteligência em nível de doutorado? Parece que devemos começar a retirar esses diplomas. Um novo estudo de pesquisadores do Oxford Internet Institute sugere que a maioria das ferramentas de benchmark populares usadas para testar o desempenho da IA são frequentemente não confiáveis e enganosas.

Os pesquisadores analisaram 445 testes de benchmark diferentes usados pela indústria e outras instituições acadêmicas para testar tudo, desde capacidades de raciocínio até desempenho em tarefas de codificação. Especialistas revisaram cada abordagem de benchmark e encontraram indícios de que os resultados produzidos por esses testes podem não ser tão precisos quanto foram apresentados, em parte devido a definições vagas sobre o que um benchmark está tentando testar e à falta de divulgação de métodos estatísticos que permitiriam a comparação fácil entre diferentes modelos.

Um grande problema que os pesquisadores encontraram é que “muitos benchmarks não são medições válidas de seus alvos pretendidos.” Ou seja, enquanto um benchmark pode afirmar medir uma habilidade específica, ele pode identificar essa habilidade de uma maneira que não captura realmente a capacidade de um modelo.

Por exemplo, os pesquisadores apontam para o teste de benchmark Grade School Math 8K (GSM8K), que mede o desempenho de um modelo em problemas matemáticos baseados em palavras de nível escolar projetados para empurrar o modelo para “raciocínio matemático de múltiplas etapas.” O GSM8K é anunciado como sendo “útil para investigar a capacidade de raciocínio informal de grandes modelos de linguagem.”

Mas os pesquisadores argumentam que o teste não necessariamente diz se um modelo está engajado em raciocínio. “Quando você pergunta a um aluno da primeira série quanto é dois mais cinco e ele diz sete, sim, essa é a resposta correta. Mas você pode concluir a partir disso que um aluno da quinta série dominou o raciocínio matemático ou o raciocínio aritmético apenas por ser capaz de somar números? Talvez, mas eu acho que a resposta é muito provavelmente não,” disse Adam Mahdi, um pesquisador sênior do Oxford Internet Institute e autor principal do estudo, à NBC News.

No estudo, os pesquisadores apontaram que as pontuações do GSM8K aumentaram ao longo do tempo, o que pode indicar que os modelos estão melhorando nesse tipo de raciocínio e desempenho. Mas também pode apontar para contaminação, que acontece quando perguntas de testes de benchmark entram no conjunto de dados do modelo ou o modelo começa a “memorizar” respostas ou informações em vez de raciocinar até uma solução. Quando os pesquisadores testaram o mesmo desempenho em um novo conjunto de perguntas de benchmark, notaram que os modelos experimentaram “quedas significativas de desempenho.”

Embora este estudo seja uma das maiores revisões de benchmarking de IA, não é o primeiro a sugerir que esse sistema de medição pode não ser tudo o que é vendido. No ano passado, pesquisadores de Stanford analisaram vários testes de benchmark de modelos de IA populares e encontraram “grandes diferenças de qualidade entre eles, incluindo aqueles amplamente utilizados por desenvolvedores e formuladores de políticas,” e notaram que a maioria dos benchmarks “é de maior qualidade na fase de design e de menor qualidade na fase de implementação.”

Se nada mais, a pesquisa é um bom lembrete de que essas medidas de desempenho, embora muitas vezes bem-intencionadas e destinadas a fornecer uma análise precisa de um modelo, podem se transformar em pouco mais do que uma linguagem de marketing para as empresas.

Fonte

Compartilhe esse conteúdo: