OpenAI Ignora o2 e Lança o Novo Modelo de ‘Raciocínio’ o3

O último dia do “12 Dias de Shipmas” da OpenAI chegou com a revelação do o3, um novo modelo de “raciocínio” em cadeia de pensamento que a empresa afirma ser o mais avançado até agora. O modelo ainda não está disponível para uso geral, mas pesquisadores de segurança podem se inscrever para uma prévia a partir de hoje.

A OpenAI e outros esperam que os modelos de raciocínio ajudem a resolver o problema persistente de chatbots que frequentemente fornecem respostas erradas. Chatbots, fundamentalmente, não “pensam” como humanos e técnicas diferentes são necessárias para tentar criar a melhor simulação de um processo de pensamento humano.

Quando questionados, os modelos de raciocínio pausam e consideram prompts relacionados que podem ajudar a produzir uma resposta precisa. Por exemplo, se você perguntar ao modelo o3: “podem habaneros ser cultivados no Noroeste do Pacífico?”, o modelo pode elaborar uma série de perguntas que ele pesquisará para chegar a uma conclusão, como “onde os habaneros geralmente crescem?”, “quais são as condições ideais para cultivar habaneros?” e “que tipo de clima o Noroeste do Pacífico tem?” Qualquer um que já usou chatbots sabe que às vezes é necessário fazer perguntas adicionais até que eles finalmente forneçam o resultado correto. Os modelos de raciocínio devem fazer esse trabalho adicional por você.

O o3 é o sucessor do o1, o primeiro modelo de raciocínio em cadeia de pensamento da OpenAI. Os representantes disseram que decidiram pular a convenção de nomenclatura “o2” “em respeito” à empresa britânica de telecomunicações, mas isso certamente não prejudica que o produto pareça mais avançado. A empresa afirma que o novo modelo possui a capacidade de ajustar seu tempo de raciocínio. Os usuários podem escolher baixo, médio ou alto tempo de raciocínio; quanto maior o computação, melhor o desempenho do o3 deve ser. A OpenAI afirma que vai passar um tempo “testando” o novo modelo com pesquisadores para evitar que ele produza respostas potencialmente prejudiciais (já que, novamente, não é um humano e não sabe o que é certo ou errado).

O raciocínio é a palavra da moda no dia no campo da IA generativa, pois os insiders da indústria acreditam que é a próxima chave necessária para melhorar o desempenho de grandes modelos de linguagem. Mais computação, eventualmente, não oferece ganhos de desempenho equivalentes, então novas técnicas são necessárias. O Google DeepMind recentemente revelou seu próprio modelo de raciocínio chamado Gemini Deep Research, que pode levar de 5 a 10 minutos para gerar um relatório que analisa várias fontes da web para chegar às suas conclusões.

A OpenAI está confiante no o3 e oferece benchmarks impressionantes – afirma que em um teste de Codeforcing, que mede a habilidade de programação, o o3 obteve uma pontuação de 2727. Para contextualizar, uma pontuação de 2400 colocaria um engenheiro no 99º percentil de programadores. Ele obteve uma pontuação de 96,7% no American Invitational Mathematics Exam de 2024, errando apenas uma pergunta. Teremos que ver como o modelo se comporta em testes no mundo real, e ainda não é uma boa ideia confiar demais em modelos de IA para trabalhos importantes onde a precisão é necessária. Mas os otimistas estão confiantes de que o problema da precisão está sendo resolvido. Espero que sim, porque, como está, as Visões de IA do Google na busca ainda são alvo de frequente ridículo nas redes sociais.

Empresas de modelos de IA como OpenAI e Perplexity estão em uma corrida para se tornarem o próximo Google, coletando o conhecimento do mundo e ajudando os usuários a entendê-lo tudo. Eles até têm produtos de busca agora que são destinados a replicar mais diretamente o Google com acesso a resultados da web em tempo real.

Todos esses jogadores parecem ultrapassar uns aos outros a cada dia que passa. No entanto, a sensação é um pouco reminiscentes do final dos anos 90, quando havia uma infinidade de motores de busca para escolher – Google, Yahoo e AltaVista, Ask Jeeves, só para citar alguns, todos absorvendo os dados da internet e apresentando-os apenas com uma UX diferente. A maioria deles desapareceu depois que um surgiu que era supremamente melhor do que o resto – o Google.

A OpenAI claramente tem uma forte liderança agora, com centenas de milhões de usuários ativos mensais e uma parceria com a Apple, mas o Google recebeu muitos elogios recentemente pelos avanços em seus modelos Gemini. O Verge relata que a empresa vai integrar o Gemini mais profundamente em sua interface de busca em breve.

Fonte

Compartilhe esse conteúdo: