Além dos benchmarks: Como o DeepSeek-R1 e o o1 se saem em tarefas do mundo real

DeepSeek-R1 certamente criou muita empolgação e preocupação, especialmente em relação ao modelo rival da OpenAI, o o1. Assim, realizamos um teste comparativo lado a lado em algumas tarefas simples de análise de dados e pesquisa de mercado.

Para colocar os modelos em pé de igualdade, usamos o Perplexity Pro Search, que agora suporta tanto o o1 quanto o R1. Nosso objetivo era olhar além dos benchmarks e ver se os modelos poderiam realmente realizar tarefas ad hoc que exigem a coleta de informações da web, selecionando as informações corretas e realizando tarefas simples que exigiriam um esforço manual substancial.

Ambos os modelos são impressionantes, mas cometem erros quando os prompts carecem de especificidade. O o1 é ligeiramente melhor em tarefas de raciocínio, mas a transparência do R1 lhe dá uma vantagem em casos (e haverá muitos) em que comete erros.

Aqui está uma análise de alguns de nossos experimentos e os links para as páginas do Perplexity onde você pode revisar os resultados por conta própria.

Calculando retornos sobre investimentos da web

Nosso primeiro teste avaliou se os modelos poderiam calcular retornos sobre investimento (ROI). Consideramos um cenário em que o usuário investiu $140 nas Magnificent Seven (Alphabet, Amazon, Apple, Meta, Microsoft, Nvidia, Tesla) no primeiro dia de cada mês de janeiro a dezembro de 2024. Pedimos ao modelo que calculasse o valor do portfólio na data atual.

Para realizar essa tarefa, o modelo teria que puxar informações de preços da Mag 7 para o primeiro dia de cada mês, dividir o investimento mensal igualmente entre as ações ($20 por ação), somá-las e calcular o valor do portfólio de acordo com o valor das ações na data atual.

Nesse teste, ambos os modelos falharam. O o1 retornou uma lista de preços das ações para janeiro de 2024 e janeiro de 2025, juntamente com uma fórmula para calcular o valor do portfólio. No entanto, não conseguiu calcular os valores corretos e basicamente disse que não haveria ROI. Por outro lado, o R1 cometeu o erro de investir apenas em janeiro de 2024 e calcular os retornos para janeiro de 2025.

O rastreamento de raciocínio do o1 não fornece informações suficientes

No entanto, o que foi interessante foi o processo de raciocínio dos modelos. Enquanto o o1 não forneceu muitos detalhes sobre como chegou aos seus resultados, o rastreamento de raciocínio do R1 mostrou que não tinha as informações corretas porque o mecanismo de recuperação do Perplexity falhou em obter os dados mensais de preços das ações (muitos aplicativos de geração aumentada por recuperação falham não por causa da falta de habilidades do modelo, mas devido a uma recuperação ruim). Isso provou ser um feedback importante que nos levou ao próximo experimento.

O rastreamento de raciocínio do R1 revela que está faltando informação

Raciocínio sobre o conteúdo do arquivo

Decidimos realizar o mesmo experimento que antes, mas em vez de solicitar que o modelo recuperasse as informações da web, decidimos fornecê-las em um arquivo de texto. Para isso, copiamos e colamos os dados mensais das ações de cada ação do Yahoo! Finance em um arquivo de texto e o fornecemos ao modelo. O arquivo continha o nome de cada ação, além da tabela HTML que continha o preço para o primeiro dia de cada mês de janeiro a dezembro de 2024 e o último preço registrado. Os dados não foram limpos para reduzir o esforço manual e testar se o modelo poderia selecionar as partes corretas dos dados.

Novamente, ambos os modelos falharam em fornecer a resposta correta. O o1 parecia ter extraído os dados do arquivo, mas sugeriu que o cálculo fosse feito manualmente em uma ferramenta como o Excel. O rastreamento de raciocínio foi muito vago e não continha informações úteis para solucionar o modelo. O R1 também falhou e não forneceu uma resposta, mas o rastreamento de raciocínio continha muitas informações úteis.

Por exemplo, ficou claro que o modelo havia analisado corretamente os dados HTML de cada ação e conseguiu extrair as informações corretas. Ele também foi capaz de realizar o cálculo mês a mês dos investimentos, somá-los e calcular o valor final de acordo com o preço mais recente da ação na tabela. No entanto, esse valor final permaneceu em sua cadeia de raciocínio e não conseguiu entrar na resposta final. O modelo também ficou confuso por uma linha no gráfico da Nvidia que marcou a divisão de ações de 10:1 da empresa em 10 de junho de 2024, e acabou calculando incorretamente o valor final do portfólio.

O R1 escondeu os resultados em seu rastreamento de raciocínio, juntamente com informações sobre onde errou

Novamente, o verdadeiro diferencial não foi o resultado em si, mas a capacidade de investigar como o modelo chegou à sua resposta. Nesse caso, o R1 nos proporcionou uma experiência melhor, permitindo-nos entender as limitações do modelo e como podemos reformular nosso prompt e formatar nossos dados para obter melhores resultados no futuro.

Comparando dados na web

Outro experimento que realizamos exigiu que o modelo comparasse as estatísticas de quatro dos principais pivôs da NBA e determinasse qual deles teve a melhor melhoria na porcentagem de acertos (FG%) da temporada 2022/2023 para a 2023/2024. Essa tarefa exigiu que o modelo realizasse raciocínio em múltiplas etapas sobre diferentes pontos de dados. O detalhe no prompt era que incluía Victor Wembanyama, que acabou de entrar na liga como novato em 2023.

A recuperação para esse prompt foi muito mais fácil, uma vez que as estatísticas dos jogadores são amplamente relatadas na web e geralmente estão incluídas em seus perfis da Wikipedia e da NBA. Ambos os modelos responderam corretamente (é Giannis, caso você esteja curioso), embora, dependendo das fontes que usaram, seus números fossem um pouco diferentes. No entanto, eles não perceberam que Wemby não se qualificava para a comparação e coletaram outras estatísticas de seu tempo na liga europeia.

Em sua resposta, o R1 forneceu uma melhor análise dos resultados com uma tabela de comparação, juntamente com links para as fontes que usou para sua resposta. O contexto adicional nos permitiu corrigir o prompt. Depois que modificamos o prompt especificando que estávamos procurando a FG% das temporadas da NBA, o modelo corretamente excluiu Wemby dos resultados.

Adicionar uma palavra simples ao prompt fez toda a diferença no resultado. Isso é algo que um humano saberia implicitamente. Seja o mais específico possível em seu prompt e tente incluir informações que um humano presumiria implicitamente.

Veredicto final

Modelos de raciocínio são ferramentas poderosas, mas ainda têm um longo caminho a percorrer antes de serem totalmente confiáveis para tarefas, especialmente à medida que outros componentes das aplicações de modelos de linguagem de grande escala (LLM) continuam a evoluir. A partir de nossos experimentos, tanto o o1 quanto o R1 ainda podem cometer erros básicos. Apesar de apresentarem resultados impressionantes, ainda precisam de um pouco de orientação para fornecer resultados precisos.

Idealmente, um modelo de raciocínio deve ser capaz de explicar ao usuário quando falta informação para a tarefa. Alternativamente, o rastreamento de raciocínio do modelo deve ser capaz de guiar os usuários para entender melhor os erros e corrigir seus prompts para aumentar a precisão e a estabilidade das respostas do modelo. Nesse aspecto, o R1 teve a vantagem. Esperamos que futuros modelos de raciocínio, incluindo a próxima série o3 da OpenAI, ofereçam aos usuários mais visibilidade e controle.

Fonte

Compartilhe esse conteúdo: