O primeiro modelo de raciocínio R1-Lite-Preview da DeepSeek chama a atenção, superando o desempenho do OpenAI o1

A DeepSeek, uma ramificação de IA focada em código aberto do fundo de hedge quantitativo chinês High-Flyer Capital Management, revelou o R1-Lite-Preview, seu mais recente modelo de linguagem grande focado em raciocínio, disponível por enquanto exclusivamente através do DeepSeek Chat, seu chatbot de IA baseado na web.

Conhecida por suas contribuições inovadoras ao ecossistema de IA de código aberto, a nova versão da DeepSeek visa trazer capacidades de raciocínio de alto nível ao público, mantendo seu compromisso com uma IA acessível e transparente.

E o R1-Lite-Preview, apesar de estar disponível apenas através do aplicativo de chat por enquanto, já está chamando a atenção ao oferecer desempenho próximo e, em alguns casos, superior ao modelo o1-preview da OpenAI.

Assim como aquele modelo lançado em setembro de 2024, o DeepSeek-R1-Lite-Preview exibe raciocínio em “cadeia de pensamento”, mostrando ao usuário as diferentes cadeias ou trilhas de “pensamento” que percorre para responder a suas consultas e entradas, documentando o processo ao explicar o que está fazendo e por quê.

Embora algumas das cadeias/trilhas de pensamento possam parecer sem sentido ou até mesmo errôneas para os humanos, o DeepSeek-R1-Lite-Preview parece, no geral, ser surpreendentemente preciso, até respondendo a perguntas “pegadinhas” que confundiram outros modelos de IA mais antigos, mas poderosos, como o GPT-4o e a família Anthropic do Claude, incluindo “quantas letras Rs existem na palavra Morango?” e “qual é maior, 9.11 ou 9.9?” Veja as capturas de tela abaixo dos meus testes com esses prompts no DeepSeek Chat:

Uma Nova Abordagem para o Raciocínio em IA

O DeepSeek-R1-Lite-Preview foi projetado para se destacar em tarefas que exigem inferência lógica, raciocínio matemático e resolução de problemas em tempo real.

De acordo com a DeepSeek, o modelo supera o desempenho do nível o1-preview da OpenAI em benchmarks estabelecidos, como o AIME (Exame de Matemática da American Invitational) e MATH.

Os resultados dos benchmarks do DeepSeek-R1-Lite-Preview foram publicados no X.

Suas capacidades de raciocínio são aprimoradas por seu processo de pensamento transparente, permitindo que os usuários acompanhem enquanto o modelo enfrenta desafios complexos passo a passo.

A DeepSeek também publicou dados de escalonamento, mostrando melhorias constantes de precisão quando o modelo recebe mais tempo ou “tokens de pensamento” para resolver problemas. Gráficos de desempenho destacam sua proficiência em alcançar pontuações mais altas em benchmarks como AIME à medida que a profundidade do pensamento aumenta.

Benchmarks e Aplicações do Mundo Real

O DeepSeek-R1-Lite-Preview teve um desempenho competitivo em benchmarks-chave.

Os resultados publicados pela empresa destacam sua capacidade de lidar com uma ampla gama de tarefas, desde matemática complexa até cenários baseados em lógica, obtendo pontuações de desempenho que rivalizam com modelos de ponta em benchmarks de raciocínio como GPQA e Codeforces.

A transparência de seu processo de raciocínio o diferencia ainda mais. Os usuários podem observar os passos lógicos do modelo em tempo real, adicionando um elemento de responsabilidade e confiança que muitos sistemas de IA proprietários carecem.

No entanto, a DeepSeek ainda não liberou o código completo para análise ou benchmarking independente de terceiros, nem disponibilizou o DeepSeek-R1-Lite-Preview através de uma API que permitiria os mesmos tipos de testes independentes.

Além disso, a empresa ainda não publicou um post no blog ou um artigo técnico explicando como o DeepSeek-R1-Lite-Preview foi treinado ou arquitetado, deixando muitas interrogações sobre suas origens subjacentes.

Acessibilidade e Planos de Código Aberto

O R1-Lite-Preview agora está acessível através do DeepSeek Chat em chat.deepseek.com. Embora seja gratuito para uso público, o modo avançado “Deep Think” do modelo tem um limite diário de 50 mensagens, oferecendo ampla oportunidade para os usuários experimentarem suas capacidades.

Olhando para o futuro, a DeepSeek planeja lançar versões de código aberto de seus modelos da série R1 e APIs relacionadas, de acordo com as postagens da empresa no X.

Esse movimento está alinhado com a história da empresa de apoiar a comunidade de IA de código aberto.

Seu lançamento anterior, o DeepSeek-V2.5, foi elogiado por combinar processamento de linguagem geral e capacidades avançadas de codificação, tornando-se um dos modelos de IA de código aberto mais poderosos da época.

Construindo sobre um Legado

A DeepSeek está continuando sua tradição de ultrapassar limites na IA de código aberto. Modelos anteriores como DeepSeek-V2.5 e DeepSeek Coder demonstraram capacidades impressionantes em tarefas de linguagem e codificação, com benchmarks colocando-o como um líder no campo.

O lançamento do R1-Lite-Preview adiciona uma nova dimensão, focando em raciocínio transparente e escalabilidade.

À medida que empresas e pesquisadores exploram aplicações para IA intensiva em raciocínio, o compromisso da DeepSeek com a abertura garante que seus modelos permaneçam um recurso vital para desenvolvimento e inovação.

Ao combinar alto desempenho, operações transparentes e acessibilidade de código aberto, a DeepSeek não está apenas avançando a IA, mas também reformulando como ela é compartilhada e utilizada.

O R1-Lite-Preview está disponível agora para testes públicos. Modelos e APIs de código aberto são esperados para seguir, solidificando ainda mais a posição da DeepSeek como líder em tecnologias de IA avançadas e acessíveis.

Fonte

Compartilhe esse conteúdo: