O QwQ usa escalonamento em tempo de inferência para resolver questões complexas de raciocínio e planejamento, superando o o1 da OpenAI em vários benchmarks.
O gigante do e-commerce chinês Alibaba lançou o mais recente modelo de sua família Qwen, conhecido como Qwen com Perguntas (QwQ), e serve como o mais recente concorrente de código aberto ao modelo de raciocínio o1 da OpenAI.
Como outros grandes modelos de raciocínio (LRMs), o QwQ utiliza ciclos extras de computação durante a inferência para revisar suas respostas e corrigir seus erros, tornando-o mais adequado para tarefas que requerem raciocínio lógico e planejamento, como matemática e programação.
Alibaba lançou uma versão de 32 bilhões de parâmetros do QwQ com um contexto de 32.000 tokens. O modelo está atualmente em pré-visualização, o que significa que uma versão de melhor desempenho provavelmente seguirá.
De acordo com os testes da Alibaba, o QwQ supera o o1-preview nos benchmarks AIME e MATH, que avaliam habilidades de resolução de problemas matemáticos. Ele também supera o o1-mini no GPQA, um benchmark para raciocínio científico. O QwQ é inferior ao o1 nos benchmarks de codificação LiveCodeBench, mas ainda supera outros modelos de ponta, como GPT-4o e Claude 3.5 Sonnet.
O QwQ não vem com um artigo acompanhante que descreva os dados ou o processo utilizado para treinar o modelo, o que dificulta a reprodução dos resultados do modelo. No entanto, como o modelo é aberto, ao contrário do o1 da OpenAI, seu “processo de pensamento” não está oculto e pode ser usado para entender como o modelo raciocina ao resolver problemas.
A Alibaba também lançou o modelo sob uma licença Apache 2.0, o que significa que ele pode ser utilizado para fins comerciais.
‘Descobrimos algo profundo’
De acordo com um post no blog publicado juntamente com o lançamento do modelo, “Através de exploração profunda e inúmeras tentativas, descobrimos algo profundo: quando dado tempo para ponderar, questionar e refletir, a compreensão do modelo sobre matemática e programação floresce como uma flor se abrindo para o sol… Esse processo de reflexão cuidadosa e auto-questionamento leva a avanços notáveis na resolução de problemas complexos.”
Isso é muito semelhante ao que sabemos sobre como funcionam os modelos de raciocínio. Ao gerar mais tokens e revisar suas respostas anteriores, os modelos têm mais chances de corrigir potenciais erros. O Marco-o1, outro modelo de raciocínio recentemente lançado pela Alibaba, também pode conter dicas de como o QwQ pode estar funcionando. O Marco-o1 utiliza busca de árvore de Monte Carlo (MCTS) e auto-reflexão no tempo de inferência para criar diferentes ramificações de raciocínio e escolher as melhores respostas. O modelo foi treinado em uma mistura de exemplos de cadeia de pensamento (CoT) e dados sintéticos gerados com algoritmos MCTS.
A Alibaba aponta que o QwQ ainda possui limitações, como misturar idiomas ou ficar preso em laços de raciocínio circulares. O modelo está disponível para download no Hugging Face e uma demonstração online pode ser encontrada no Hugging Face Spaces.
A era dos LLMs dá lugar aos LRMs: Modelos de Raciocínio Grande
O lançamento do o1 despertou um crescente interesse na criação de LRMs, embora não se saiba muito sobre como o modelo funciona internamente, além de usar escalonamento em tempo de inferência para melhorar as respostas do modelo.
Atualmente, existem vários concorrentes chineses do o1. O laboratório de IA chinês DeepSeek lançou recentemente o R1-Lite-Preview, seu concorrente do o1, que atualmente está disponível apenas através da interface de chat online da empresa. O R1-Lite-Preview supostamente supera o o1 em vários benchmarks-chave.
Outro modelo recentemente lançado é o LLaVA-o1, desenvolvido por pesquisadores de várias universidades na China, que traz o paradigma de raciocínio em tempo de inferência para modelos de linguagem de visão de código aberto (VLMs).
O foco nos LRMs ocorre em um momento de incerteza sobre o futuro das leis de escalonamento de modelos. Relatórios indicam que laboratórios de IA como OpenAI, Google DeepMind e Anthropic estão obtendo retornos decrescentes no treinamento de modelos maiores. E criar volumes maiores de dados de treinamento de qualidade está se tornando cada vez mais difícil, já que os modelos estão sendo treinados com trilhões de tokens coletados da internet.
Enquanto isso, o escalonamento em tempo de inferência oferece uma alternativa que pode fornecer o próximo avanço na melhoria das habilidades da próxima geração de modelos de IA. Há relatos de que a OpenAI está usando o o1 para gerar dados de raciocínio sintético para treinar a próxima geração de seus LLMs. O lançamento de modelos de raciocínio abertos provavelmente estimulará o progresso e tornará o espaço mais competitivo.