O recente lançamento do OpenAI o1 trouxe grande atenção aos modelos de raciocínio em larga escala (LRMs) e está inspirando novos modelos destinados a resolver problemas complexos que os modelos de linguagem clássicos costumam ter dificuldade. Baseando-se no sucesso do o1 e no conceito de LRMs, pesquisadores da Alibaba introduziram o Marco-o1, que aprimora as capacidades de raciocínio e enfrenta problemas com soluções abertas onde padrões claros e recompensas quantificáveis estão ausentes.
O OpenAI o1 utiliza “escalonamento em tempo de inferência” para melhorar a capacidade de raciocínio do modelo, dando-lhe “tempo para pensar”. Basicamente, o modelo usa mais ciclos de computação durante a inferência para gerar mais tokens e revisar suas respostas, o que melhora seu desempenho em tarefas que requerem raciocínio. O o1 é renomado por suas impressionantes capacidades de raciocínio, especialmente em tarefas com respostas padrão, como matemática, física e programação.
No entanto, muitas aplicações envolvem problemas abertos que carecem de soluções claras e recompensas quantificáveis. “Nosso objetivo era expandir ainda mais os limites dos LLMs, aprimorando suas habilidades de raciocínio para enfrentar desafios complexos do mundo real”, escrevem os pesquisadores da Alibaba.
Marco-o1 é uma versão ajustada do Qwen2-7B-Instruct da Alibaba que integra técnicas avançadas, como o ajuste fino de cadeia de pensamento (CoT), busca em árvore de Monte Carlo (MCTS) e estratégias de ação de raciocínio.
Os pesquisadores treinaram o Marco-o1 em uma combinação de conjuntos de dados, incluindo o conjunto de dados CoT Open-O1; o conjunto de dados CoT Marco-o1, um conjunto de dados sintético gerado usando MCTS; e o conjunto de dados de Instruções Marco-o1, uma coleção de dados personalizados de seguimento de instruções para tarefas de raciocínio.
O MCTS é um algoritmo de busca que se mostrou eficaz em cenários de resolução de problemas complexos. Ele explora inteligentemente diferentes caminhos de solução, amostrando repetidamente possibilidades, simulando resultados e gradualmente construindo uma árvore de decisão. Tem se mostrado muito eficaz em problemas complexos de IA, como vencer o jogo Go.
O Marco-o1 aproveita o MCTS para explorar múltiplos caminhos de raciocínio enquanto gera tokens de resposta. O modelo usa os scores de confiança dos tokens de resposta candidatos para construir sua árvore de decisão e explorar diferentes ramificações. Isso permite que o modelo considere uma gama mais ampla de possibilidades e chegue a conclusões mais informadas e nuançadas, especialmente em cenários com soluções abertas. Os pesquisadores também introduziram uma estratégia de ação de raciocínio flexível que permite ajustar a granularidade dos passos do MCTS definindo o número de tokens gerados em cada nó da árvore. Isso proporciona um compromisso entre precisão e custo computacional, dando aos usuários a flexibilidade de equilibrar desempenho e eficiência.
Outra inovação chave no Marco-o1 é a introdução de um mecanismo de reflexão. Durante o processo de raciocínio, o modelo periodicamente se questiona com a frase: “Espere! Talvez eu tenha cometido alguns erros! Preciso repensar do zero.” Isso faz com que o modelo reavalie seus passos de raciocínio, identifique erros potenciais e refine seu processo de pensamento.
“Essa abordagem permite que o modelo atue como seu próprio crítico, identificando erros potenciais em seu raciocínio”, escrevem os pesquisadores. “Ao solicitar explicitamente que o modelo questione suas conclusões iniciais, incentivamos-o a re-expressar e refinar seu processo de pensamento.”
Para avaliar o desempenho do Marco-o1, os pesquisadores realizaram experimentos em várias tarefas, incluindo o benchmark MGSM, um conjunto de dados para problemas matemáticos escolares multilíngues. O Marco-o1 superou significativamente o modelo base Qwen2-7B, especialmente quando o componente MCTS foi ajustado para granularidade de um único token.
No entanto, o objetivo principal do Marco-o1 era abordar os desafios do raciocínio em cenários abertos. Para isso, os pesquisadores testaram o modelo na tradução de expressões coloquiais e gírias, uma tarefa que requer compreensão de sutilezas da linguagem, cultura e contexto. Os experimentos mostraram que o Marco-o1 foi capaz de capturar e traduzir essas expressões de forma mais eficaz do que ferramentas de tradução tradicionais. Por exemplo, o modelo traduziu corretamente uma expressão coloquial em chinês, que literalmente significa: “Este sapato oferece uma sensação de pisar na sujeira”, para o equivalente em inglês: “Este sapato tem uma sola confortável.” A cadeia de raciocínio do modelo mostra como ele avalia diferentes significados potenciais e chega à tradução correta.
Esse paradigma pode se mostrar útil para tarefas como design de produtos e estratégia, que requerem compreensão profunda e contextual e não têm benchmarks e métricas bem definidos.
Uma nova onda de modelos de raciocínio
Desde o lançamento do o1, laboratórios de IA estão correndo para lançar modelos de raciocínio. Na semana passada, o laboratório de IA chinês DeepSeek lançou o R1-Lite-Preview, seu concorrente do o1, que atualmente está disponível apenas através da interface de chat online da empresa. O R1-Lite-Preview supostamente supera o o1 em vários benchmarks-chave.
A comunidade de código aberto também está se aproximando do mercado de modelos privados, lançando modelos e conjuntos de dados que aproveitam as leis de escalonamento em tempo de inferência. A equipe da Alibaba lançou o Marco-o1 no Hugging Face junto com um conjunto de dados de raciocínio parcial que os pesquisadores podem usar para treinar seus próprios modelos de raciocínio. Outro modelo recentemente lançado é o LLaVA-o1, desenvolvido por pesquisadores de várias universidades na China, que traz o paradigma de raciocínio em tempo de inferência para modelos de linguagem de visão (VLMs).
O lançamento desses modelos ocorre em meio a incertezas sobre o futuro das leis de escalonamento de modelos. Vários relatórios indicam que os retornos do treinamento de modelos maiores estão diminuindo e podem estar atingindo um limite. Mas o que é certo é que estamos apenas começando a explorar as possibilidades do escalonamento em tempo de inferência.