A OpenAI está tentando argumentar que a IA pode realmente ser útil no trabalho, já que alguns estudos recentes mostraram que as empresas não estão obtendo muito de seus investimentos em IA.
Na terça-feira, a criadora do ChatGPT lançou um relatório apresentando um novo benchmark para testar a IA em “tarefas do mundo real, economicamente valiosas” em 44 empregos diferentes. A avaliação é chamada de GDPval, e a OpenAI diz que é destinada a fundamentar os debates sobre IA no local de trabalho em evidências, em vez de exageros, e a acompanhar como os modelos melhoram ao longo do tempo.
Isso vem na esteira de um estudo recente do MIT Media Lab que descobriu que menos de uma em cada dez pilotagens de IA geraram ganhos mensuráveis de receita e alertou que “95% das organizações estão obtendo retorno zero” em suas apostas em IA. E apenas na semana passada, pesquisadores do BetterUp Labs da Harvard Business Review e do Social Media Lab de Stanford culparam o “workslop” pelos resultados medíocres. Eles definem workslop como “conteúdo de trabalho gerado por IA que se disfarça de bom trabalho, mas carece de substância para avançar significativamente em uma determinada tarefa.”
A OpenAI argumenta que o GDPval preenche uma lacuna deixada por benchmarks existentes, que normalmente testam modelos de IA em problemas acadêmicos abstratos, em vez dos tipos de tarefas do dia a dia que as pessoas realmente realizam no trabalho.
O que o GDPval mede
“Chamamos essa avaliação de GDPval porque começamos com o conceito de Produto Interno Bruto (PIB) como um indicador econômico chave e extraímos tarefas das ocupações-chave nas indústrias que mais contribuem para o PIB”, escreveu a OpenAI em um post no blog anunciando o relatório.
A primeira versão do benchmark abrange 44 empregos em nove indústrias que compõem a maior parte do PIB dos EUA, incluindo imóveis, governo, manufatura e finanças. Dentro de cada setor, a OpenAI focou em funções que geram os maiores salários e compensações, concentrando-se no que chamaram de trabalho do conhecimento.
Para construir o conjunto de testes, a OpenAI recrutou profissionais dessas indústrias, com uma média de 14 anos de experiência, para projetar tarefas do mundo real. Cada especialista também criou um exemplo escrito por humanos de como a tarefa deveria ser realizada. Exemplos de atribuições incluem redigir um parecer jurídico, produzir um projeto de engenharia, lidar com uma troca de suporte ao cliente ou escrever um plano de cuidados de enfermagem.
O relatório contém 30 tarefas totalmente revisadas por ocupação, além de um menor “conjunto de ouro” de cinco tarefas de código aberto por ocupação. Para medir o desempenho, a OpenAI usou avaliadores especialistas, profissionais das mesmas áreas representadas no conjunto de dados. Esses profissionais avaliaram cegamente os entregáveis gerados pela IA com aqueles produzidos pelos redatores de tarefas e ofereceram críticas e classificações. Eles então classificaram cada um como melhor, tão bom quanto ou pior do que o outro.
O que o GDPval encontrou
O relatório descobriu que os principais modelos de IA de hoje já estão se aproximando da qualidade do trabalho produzido por especialistas humanos.
Em testes em 220 tarefas do conjunto de ouro do GDPval, os avaliadores compararam entregáveis de sete modelos líderes com tarefas completadas por profissionais da indústria.
Claude Opus 4.1 saiu por cima, obtendo uma taxa de vitória e empate de 47,6% contra tarefas completadas por humanos. Ele se destacou especialmente em estética, como formatação de documentos e layout de slides.
O GPT-5 alto ficou em segundo lugar com uma taxa de vitória e empate de 38,8%. Sua força estava na precisão, como seguir cuidadosamente as instruções e realizar cálculos corretos.
O GPT-4o ficou em último lugar com uma taxa de vitória e empate de apenas 12,4%.
Os modelos de IA se saíram particularmente bem em tarefas de ocupações como balconistas e locadores; clerks de envio, recebimento e inventário; gerentes de vendas; e desenvolvedores de software.
Eles tiveram mais dificuldades com tarefas de ocupações como engenheiros industriais, engenheiros médicos, farmacêuticos, gerentes financeiros e editores de vídeo.
Por exemplo, Claude Opus 4.1 teve sua maior taxa de vitória e empate com tarefas realizadas por balconistas e locadores (81%), seguido por clerks de envio, recebimento e inventário (76%). Suas menores pontuações foram para tarefas realizadas por engenheiros industriais e editores de filmes e vídeos (ambos 17%), e por técnicos de áudio e vídeo (2%).
A OpenAI também afirma que esses modelos podem realizar tarefas do GDPval cerca de 100 vezes mais rápido e 100 vezes mais barato do que especialistas humanos.
Ainda assim, a OpenAI enfatizou que, mesmo enquanto a IA transforma o mercado de trabalho, ela não será capaz de substituir completamente os humanos. Como a empresa colocou, “a maioria dos empregos é mais do que apenas uma coleção de tarefas que podem ser escritas”.
“O GDPval destaca onde a IA pode lidar com tarefas rotineiras para que as pessoas possam passar mais tempo nas partes criativas e que exigem julgamento do trabalho”, escreveu a OpenAI.
