No 9º dia de seus anúncios de produtos temáticos de férias conhecidos como ’12 Dias da OpenAI’, a OpenAI está lançando seu modelo mais avançado, o1, para desenvolvedores de terceiros por meio de sua interface de programação de aplicativos (API).
Isso marca um grande passo à frente para os desenvolvedores que buscam criar novas aplicações de IA avançadas ou integrar a tecnologia mais avançada da OpenAI em seus aplicativos e fluxos de trabalho existentes, sejam eles voltados para empresas ou consumidores.
Se você ainda não está familiarizado com a série o1 da OpenAI, aqui está um resumo: ela foi anunciada em setembro de 2024, sendo a primeira de uma nova ‘família’ de modelos da empresa ChatGPT, avançando além dos modelos de linguagem de grande escala (LLMs) da série GPT, oferecendo capacidades de ‘raciocínio’.
Basicamente, a família de modelos o1 – o1 e o1 mini – leva mais tempo para responder aos prompts de um usuário com respostas, mas se verifica enquanto formula uma resposta para ver se está correta e evitar alucinações. Na época, a OpenAI afirmou que poderia lidar com problemas mais complexos de nível de doutorado – algo comprovado também por usuários do mundo real.
Enquanto os desenvolvedores anteriormente tinham acesso a uma versão de pré-visualização do o1 que podiam usar para construir seus próprios aplicativos – digamos, um conselheiro de doutorado ou assistente de laboratório – o lançamento da versão completa do modelo o1 por meio da API traz desempenho aprimorado, menor latência e novos recursos que facilitam a integração em aplicações do mundo real.
A OpenAI já havia disponibilizado o o1 para consumidores por meio de seus planos ChatGPT Plus e Pro há cerca de duas semanas e meia, e adicionou a capacidade dos modelos de analisar e responder a imagens e arquivos enviados pelos usuários também.
Junto com o lançamento de hoje, a OpenAI anunciou atualizações significativas para sua API em Tempo Real, reduções de preços e um novo método de ajuste fino que fornece aos desenvolvedores um maior controle sobre seus modelos.
O modelo completo o1 agora está disponível para desenvolvedores através da API da OpenAI.
O novo modelo o1, disponível como o1-2024-12-17, foi projetado para se destacar em tarefas complexas de raciocínio em múltiplos passos. Comparado à versão anterior o1-preview, este lançamento melhora a precisão, eficiência e flexibilidade.
A OpenAI relata ganhos significativos em uma variedade de benchmarks, incluindo codificação, matemática e tarefas de raciocínio visual.
Por exemplo, os resultados de codificação no SWE-bench Verified aumentaram de 41,3 para 48,9, enquanto o desempenho no teste AIME focado em matemática saltou de 42 para 79,2. Essas melhorias tornam o o1 adequado para construir ferramentas que otimizam suporte ao cliente, logística ou resolvem problemas analíticos desafiadores.
Vários novos recursos aprimoram a funcionalidade do o1 para os desenvolvedores. Saídas Estruturadas permitem que as respostas correspondam de forma confiável a formatos personalizados, como esquemas JSON, garantindo consistência ao interagir com sistemas externos. Chamadas de função simplificam o processo de conectar o o1 a APIs e bancos de dados, enquanto a capacidade de raciocinar sobre entradas visuais abre casos de uso em fabricação, ciência e codificação.
Os desenvolvedores também podem ajustar o comportamento do o1 usando o novo parâmetro reasoning_effort, que controla quanto tempo o modelo gasta em uma tarefa para equilibrar desempenho e tempo de resposta.
A API em Tempo Real da OpenAI recebe um impulso para alimentar assistentes de áudio/vídeo inteligentes e conversacionais.
A OpenAI também anunciou atualizações para sua API em Tempo Real, projetadas para alimentar experiências conversacionais naturais de baixa latência, como assistentes de voz, ferramentas de tradução ao vivo ou tutores virtuais.
Uma nova integração WebRTC simplifica a construção de aplicativos baseados em voz, proporcionando suporte direto para streaming de áudio, supressão de ruído e controle de congestionamento. Os desenvolvedores agora podem integrar capacidades em tempo real com configuração mínima, mesmo em condições de rede variáveis.
A OpenAI também está introduzindo novos preços para sua API em Tempo Real, reduzindo custos em 60% para áudio GPT-4o para $40 por 1 milhão de tokens de entrada e $80 por 1 milhão de tokens de saída.
Os custos de entrada de áudio em cache foram reduzidos em 87,5%, agora custando $2,50 por 1 milhão de tokens de entrada. Para melhorar ainda mais a acessibilidade, a OpenAI está adicionando o GPT-4o mini, um modelo menor e econômico, com preços de $10 por 1 milhão de tokens de entrada e $20 por 1 milhão de tokens de saída.
As taxas de tokens de texto para o GPT-4o mini também são significativamente mais baixas, começando em $0,60 para tokens de entrada e $2,40 para tokens de saída.
Além dos preços, a OpenAI está dando aos desenvolvedores mais controle sobre as respostas na API em Tempo Real. Recursos como respostas concorrentes fora da banda permitem que tarefas em segundo plano, como moderação de conteúdo, ocorram sem interromper a experiência do usuário. Os desenvolvedores também podem personalizar contextos de entrada para se concentrar em partes específicas de uma conversa e controlar quando as respostas de voz são acionadas para interações mais precisas e suaves.
O Ajuste Fino de Preferência oferece novas opções de personalização.
Outra grande adição é o Ajuste Fino de Preferência, um método para personalizar modelos com base em preferências de usuários e desenvolvedores. Ao contrário do Ajuste Fino Supervisionado, que depende de pares de entrada-saída exatos, o Ajuste Fino de Preferência usa comparações par a par para ensinar o modelo quais respostas são preferidas. Essa abordagem é particularmente eficaz para tarefas subjetivas, como sumarização, escrita criativa ou cenários onde o tom e o estilo são importantes.
Testes iniciais com parceiros como a Rogo AI, que constrói assistentes para analistas financeiros, mostram resultados promissores. A Rogo relatou que o Ajuste Fino de Preferência ajudou seu modelo a lidar melhor com consultas complexas e fora da distribuição do que o ajuste fino tradicional, melhorando a precisão das tarefas em mais de 5%. O recurso já está disponível para gpt-4o-2024-08-06 e gpt-4o-mini-2024-07-18, com planos de expandir o suporte para modelos mais novos no início do próximo ano.
Novos SDKs para desenvolvedores Go e Java.
Para simplificar a integração, a OpenAI está expandindo suas ofertas oficiais de SDK com lançamentos beta para Go e Java. Esses SDKs se juntam às bibliotecas existentes em Python, Node.js e .NET, facilitando a interação dos desenvolvedores com os modelos da OpenAI em mais ambientes de programação. O SDK Go é particularmente útil para construir sistemas de backend escaláveis, enquanto o SDK Java é adaptado para aplicações de nível empresarial que dependem de tipagem forte e ecossistemas robustos.
Com essas atualizações, a OpenAI está oferecendo aos desenvolvedores um conjunto de ferramentas expandido para construir aplicações avançadas, personalizáveis e impulsionadas por IA. Seja por meio das aprimoradas capacidades de raciocínio do o1, melhorias na API em Tempo Real ou opções de ajuste fino, as últimas ofertas da OpenAI visam entregar desempenho e eficiência de custos para empresas que buscam ultrapassar os limites da integração da IA.