OpenAI Afirma que Seu Novo Modelo Alcançou Nível Humano em um Teste de ‘Inteligência Geral’. O que Isso Significa?

Um novo modelo de inteligência artificial (IA) acaba de alcançar resultados em nível humano em um teste projetado para medir “inteligência geral”.

Em 20 de dezembro, o sistema o3 da OpenAI obteve 85% no benchmark ARC-AGI, bem acima da melhor pontuação anterior de 55% e em par com a média de pontuação humana.

Ele também teve um bom desempenho em um teste de matemática muito difícil.

Criar inteligência geral artificial, ou AGI, é o objetivo declarado de todos os principais laboratórios de pesquisa em IA. À primeira vista, a OpenAI parece ter dado pelo menos um passo significativo em direção a esse objetivo.

Embora o ceticismo permaneça, muitos pesquisadores e desenvolvedores de IA sentem que algo acaba de mudar. Para muitos, a perspectiva de AGI agora parece mais real, urgente e mais próxima do que se imaginava. Eles estão certos?

Generalização e inteligência

Para entender o que o resultado do o3 significa, você precisa entender do que se trata o teste ARC-AGI. Em termos técnicos, é um teste da “eficiência de amostra” de um sistema de IA na adaptação a algo novo – quantos exemplos de uma situação nova o sistema precisa ver para entender como funciona.

Um sistema de IA como o ChatGPT (GPT-4) não é muito eficiente em termos de amostra. Ele foi “treinado” em milhões de exemplos de texto humano, construindo “regras” probabilísticas sobre quais combinações de palavras são mais prováveis.

O resultado é bastante bom em tarefas comuns. Ele é ruim em tarefas incomuns, porque tem menos dados (menos amostras) sobre essas tarefas.

Até que os sistemas de IA possam aprender com um pequeno número de exemplos e se adaptar com mais eficiência de amostra, eles só serão usados para trabalhos muito repetitivos e aqueles onde a falha ocasional é tolerável.

A capacidade de resolver com precisão problemas desconhecidos ou novos a partir de um número limitado de dados é conhecida como a capacidade de generalizar. É amplamente considerada um elemento necessário, até mesmo fundamental, da inteligência.

Grades e padrões

O benchmark ARC-AGI testa a adaptação eficiente em amostras usando pequenos problemas de quadrados em grade, como o exemplo abaixo. A IA precisa descobrir o padrão que transforma a grade à esquerda na grade à direita.

Um exemplo de tarefa do teste benchmark ARC-AGI.

Cada pergunta fornece três exemplos para aprender. O sistema de IA então precisa descobrir as regras que “generalizam” dos três exemplos para o quarto.

Esses problemas são muito semelhantes aos testes de QI que você pode lembrar da escola.

Regras fracas e adaptação

Não sabemos exatamente como a OpenAI fez isso, mas os resultados sugerem que o modelo o3 é altamente adaptável. A partir de apenas alguns exemplos, ele encontra regras que podem ser generalizadas.

Para descobrir um padrão, não devemos fazer suposições desnecessárias ou ser mais específicos do que realmente precisamos. Em teoria, se você pode identificar as “regras mais fracas” que fazem o que você quer, então você maximizou sua capacidade de se adaptar a novas situações.

O que queremos dizer com as regras mais fracas? A definição técnica é complicada, mas regras mais fracas geralmente são aquelas que podem ser descritas em declarações mais simples.

No exemplo acima, uma expressão em inglês da regra poderia ser algo como: “Qualquer forma com uma linha saliente se moverá para o final dessa linha e ‘cobrirá’ quaisquer outras formas que se sobreponham a ela.”

Buscando cadeias de pensamento?

Embora não saibamos como a OpenAI alcançou esse resultado, parece improvável que eles tenham otimizado deliberadamente o sistema o3 para encontrar regras fracas. No entanto, para ter sucesso nas tarefas ARC-AGI, ele deve estar encontrando-as.

Sabemos que a OpenAI começou com uma versão de propósito geral do modelo o3 (que difere da maioria dos outros modelos, porque pode passar mais tempo “pensando” sobre perguntas difíceis) e então o treinou especificamente para o teste ARC-AGI.

O pesquisador francês de IA Francois Chollet, que projetou o benchmark, acredita que o o3 busca através de diferentes “cadeias de pensamento” descrevendo etapas para resolver a tarefa. Ele então escolheria o “melhor” de acordo com alguma regra vagamente definida ou “heurística”.

Isso não seria “muito diferente” de como o sistema AlphaGo do Google pesquisou diferentes sequências possíveis de movimentos para vencer o campeão mundial de Go.

Você pode pensar nessas cadeias de pensamento como programas que se ajustam aos exemplos. Claro, se for como a IA que joga Go, então precisa de uma heurística, ou regra solta, para decidir qual programa é o melhor.

No entanto, se for como o AlphaGo, então eles simplesmente fizeram uma IA criar uma heurística. Esse foi o processo para o AlphaGo. O Google treinou um modelo para avaliar diferentes sequências de movimentos como melhores ou piores do que outras.

O que ainda não sabemos

A questão então é, isso realmente está mais próximo da AGI? Se é assim que o o3 funciona, então o modelo subjacente pode não ser muito melhor do que os modelos anteriores.

Os conceitos que o modelo aprende com a linguagem podem não ser mais adequados para a generalização do que antes. Em vez disso, podemos estar apenas vendo uma “cadeia de pensamento” mais generalizável encontrada através dos passos adicionais de treinar uma heurística especializada para este teste. A prova, como sempre, estará no resultado.

Quase tudo sobre o o3 permanece desconhecido. A OpenAI fez uma divulgação limitada a algumas apresentações na mídia e testes iniciais para um punhado de pesquisadores, laboratórios e instituições de segurança em IA.

Entender verdadeiramente o potencial do o3 exigirá um trabalho extenso, incluindo avaliações, uma compreensão da distribuição de suas capacidades, com que frequência ele falha e com que frequência ele tem sucesso.

Quando o o3 for finalmente lançado, teremos uma ideia muito melhor se ele é aproximadamente tão adaptável quanto um humano médio.

Se for, pode ter um enorme impacto econômico revolucionário, inaugurando uma nova era de inteligência acelerada e autoaperfeiçoada. Precisaremos de novos benchmarks para a própria AGI e uma consideração séria de como deve ser governada.

Se não, isso ainda será um resultado impressionante. No entanto, a vida cotidiana permanecerá praticamente a mesma.

Fonte

Compartilhe esse conteúdo: