Durante uma recente aparição na imprensa, o CEO da OpenAI, Sam Altman, disse que observou o “QI” da IA melhorar rapidamente nos últimos anos.
“Muito vagamente, parece-me que — isso não é cientificamente preciso, isso é apenas uma resposta de vibração ou espiritual — a cada ano nos movemos uma desvio padrão de QI,” disse Altman.
Altman não é o primeiro a usar o QI, uma estimativa da inteligência de uma pessoa, como um marco para o progresso da IA. Influenciadores de IA nas redes sociais aplicaram testes de QI em modelos e classificaram os resultados.
Mas muitos especialistas dizem que o QI é uma medida pobre das capacidades de um modelo — e uma enganosa.
“Pode ser muito tentador usar as mesmas medidas que usamos para humanos para descrever capacidades ou progresso, mas isso é como comparar maçãs com laranjas,” disse Sandra Wachter, uma pesquisadora que estuda tecnologia e regulamentação em Oxford, ao TechCrunch.
Em seus comentários na coletiva, Altman equiparou QI com inteligência. No entanto, os testes de QI são medidas relativas — não objetivas — de certos tipos de inteligência. Há um consenso de que o QI é um teste razoável de lógica e raciocínio abstrato. Mas não mede a inteligência prática — saber como fazer as coisas funcionarem — e é, no melhor dos casos, uma instantânea.
“O QI é uma ferramenta para medir as capacidades humanas — uma contestada, para dizer o mínimo — com base no que os cientistas acreditam que a inteligência humana parece,” observou Wachter. “Mas você não pode usar a mesma medida para descrever as capacidades da IA. Um carro é mais rápido que humanos, e um submarino é melhor em mergulhar. Mas isso não significa que carros ou submarinos superam a inteligência humana. Você está equivocando um aspecto de desempenho com a inteligência humana, que é muito mais complexa.”
Para se sair bem em um teste de QI, cujas origens alguns historiadores rastreiam até a eugenia, a teoria científica amplamente desacreditada de que as pessoas podem ser melhoradas por meio da seleção, um testado deve ter uma forte memória de trabalho e conhecimento das normas culturais ocidentais. Isso convida à oportunidade de viés, é claro, razão pela qual um psicólogo chamou os testes de QI de “modelos mecânicos ideologicamente corruptíveis” de inteligência.
Que um modelo possa se sair bem em um teste de QI indica mais sobre as falhas do teste do que sobre o desempenho do modelo, de acordo com Os Keyes, um candidato a doutorado na Universidade de Washington que estuda IA ética.
“[Esses] testes são bastante fáceis de manipular se você tiver uma quantidade praticamente infinita de memória e paciência,” disse Keyes. “Os testes de QI são uma maneira altamente limitada de medir cognição, sentiência e inteligência, algo que sabemos desde antes da invenção do computador digital.”
A IA provavelmente tem uma vantagem injusta em testes de QI, considerando que os modelos têm enormes quantidades de memória e conhecimento internalizado à sua disposição. Muitas vezes, os modelos são treinados em dados da web pública, e a web está cheia de perguntas de exemplo retiradas de testes de QI.
“Os testes tendem a repetir padrões muito semelhantes — uma maneira bastante infalível de aumentar seu QI é praticar fazer testes de QI, que é essencialmente o que cada [modelo] fez,” disse Mike Cook, um pesquisador do King’s College London especializado em IA. “Quando eu aprendo algo, não recebo isso injetado em meu cérebro com clareza perfeita 1 milhão de vezes, ao contrário da IA, e não posso processá-lo sem ruído ou perda de sinal, também.”
No final, os testes de QI — tão tendenciosos quanto são — foram projetados para humanos, acrescentou Cook — destinados a avaliar as habilidades gerais de resolução de problemas. Eles são inadequados para uma tecnologia que se aproxima da resolução de problemas de uma maneira muito diferente da dos humanos.
“Um corvo pode ser capaz de usar uma ferramenta para recuperar um petisco de uma caixa, mas isso não significa que ele pode se inscrever em Harvard,” disse Cook. “Quando eu resolvo um problema de matemática, meu cérebro também está lidando com sua capacidade de ler as palavras na página corretamente, de não pensar sobre as compras que preciso fazer no caminho para casa, ou se está muito frio na sala agora. Em outras palavras, os cérebros humanos lidam com muito mais coisas quando resolvem um problema — qualquer problema, testes de QI ou não — e o fazem com muito menos ajuda [do que a IA].”
Tudo isso aponta para a necessidade de melhores testes de IA, disse Heidy Khlaaf, cientista-chefe de IA do AI Now Institute, ao TechCrunch.
“Na história da computação, nunca comparamos as habilidades computacionais com as dos humanos precisamente porque a natureza da computação significa que os sistemas sempre puderam completar tarefas já além da capacidade humana,” disse Khlaaf. “Essa ideia de que comparamos diretamente o desempenho dos sistemas com as habilidades humanas é um fenômeno recente que é altamente contestado, e o que cerca a controvérsia dos benchmarks em constante expansão — e em movimento — sendo criados para avaliar os sistemas de IA.