Um laboratório chinês revelou o que parece ser um dos primeiros modelos de IA de “raciocínio” para rivalizar com o o1 da OpenAI.
Na quarta-feira, a DeepSeek, uma empresa de pesquisa em IA financiada por um fundo de hedge quantitativo, lançou uma prévia do DeepSeek-R1, que a empresa afirma ser um modelo de raciocínio competitivo com o o1.
Ao contrário da maioria dos modelos, os modelos de raciocínio efetivamente verificam seus próprios fatos, gastando mais tempo considerando uma pergunta ou consulta. Isso os ajuda a evitar algumas das armadilhas que normalmente atrapalham os modelos.
Semelhante ao o1, o DeepSeek-R1 raciocina sobre tarefas, planejando à frente e realizando uma série de ações que ajudam o modelo a chegar a uma resposta. Isso pode levar um tempo. Assim como o o1, dependendo da complexidade da pergunta, o DeepSeek-R1 pode “pensar” por dezenas de segundos antes de responder.
A DeepSeek afirma que o DeepSeek-R1 (ou DeepSeek-R1-Lite-Preview, para ser preciso) apresenta desempenho equivalente ao modelo o1-preview da OpenAI em dois benchmarks populares de IA, AIME e MATH. O AIME usa outros modelos de IA para avaliar o desempenho de um modelo, enquanto o MATH é uma coleção de problemas de palavras. Mas o modelo não é perfeito. Alguns comentaristas no X notaram que o DeepSeek-R1 tem dificuldades com jogo da velha e outros problemas de lógica. (O o1 também tem.)
O DeepSeek-R1 também parece bloquear consultas consideradas politicamente sensíveis. Em nossos testes, o modelo se recusou a responder perguntas sobre o líder chinês Xi Jinping, a Praça Tiananmen e as implicações geopolíticas da China invadindo Taiwan.
O comportamento é provavelmente resultado da pressão do governo chinês sobre projetos de IA na região. Modelos na China devem passar por avaliação pelo regulador da internet da China para garantir que suas respostas “incorporem valores socialistas centrais”. Relatos indicam que o governo chegou a propor uma lista negra de fontes que não podem ser usadas para treinar modelos — o resultado sendo que muitos sistemas de IA chineses se recusam a responder a tópicos que possam irritar os reguladores.
A crescente atenção aos modelos de raciocínio vem à medida que a viabilidade das “leis de escalonamento”, teorias há muito sustentadas de que jogar mais dados e poder computacional em um modelo aumentaria continuamente suas capacidades, está sendo questionada. Uma enxurrada de reportagens sugere que modelos de grandes laboratórios de IA, incluindo OpenAI, Google e Anthropic, não estão melhorando tão dramaticamente quanto antes.
Isso levou a uma corrida por novas abordagens, arquiteturas e técnicas de desenvolvimento em IA. Uma delas é o cálculo em tempo de teste, que fundamenta modelos como o o1 e o DeepSeek-R1. Também conhecido como cálculo de inferência, o cálculo em tempo de teste essencialmente dá aos modelos tempo extra de processamento para completar tarefas.
“Estamos vendo o surgimento de uma nova lei de escalonamento”, disse o CEO da Microsoft, Satya Nadella, esta semana durante uma palestra na conferência Ignite da Microsoft, referindo-se ao cálculo em tempo de teste.
A DeepSeek, que afirma que planeja tornar o DeepSeek-R1 de código aberto e lançar uma API, é uma operação curiosa. É apoiada pela High-Flyer Capital Management, um fundo de hedge quantitativo chinês que usa IA para informar suas decisões de negociação.
A High-Flyer constrói seus próprios clusters de servidores para treinamento de modelos, o mais recente dos quais supostamente possui 10.000 GPUs Nvidia A100 e custou 1 bilhão de ienes (~$138 milhões). Fundada por Liang Wenfeng, um graduado em ciência da computação, a High-Flyer visa alcançar uma IA “superinteligente” por meio de sua organização DeepSeek.