A OpenAI revelou novas atualizações de API em seu Dev Day na segunda-feira, introduzindo o GPT-5 Pro, seu mais recente modelo de linguagem, seu novo modelo de geração de vídeo Sora 2 e um modelo de voz menor e mais barato.
As atualizações foram parte de uma série de anúncios voltados para atrair desenvolvedores para o ecossistema da OpenAI, incluindo o lançamento de uma ferramenta de construção de agentes e a capacidade de construir aplicativos no ChatGPT.
A adição do GPT-5 Pro pode atrair desenvolvedores que criam aplicações nas áreas de finanças, jurídico e saúde – indústrias que precisam de “alta precisão e profundidade de raciocínio”, de acordo com o CEO da OpenAI, Sam Altman.
Altman também observou que as capacidades de voz serão essenciais no futuro, à medida que rapidamente se tornam uma das principais formas de interação das pessoas com a IA. Para esse fim, a OpenAI está lançando o “gpt-realtime mini”, um modelo de voz menor e mais barato na API que suporta interações de streaming de áudio e fala com baixa latência. O novo modelo é 70% mais barato do que o modelo de voz avançado anterior da OpenAI, mas promete a “mesma qualidade de voz e expressividade”.
Finalmente, os criadores envolvidos no ecossistema de desenvolvedores da OpenAI agora podem acessar o Sora 2 em pré-visualização na API. A OpenAI lançou o Sora 2, seu mais recente gerador de áudio e vídeo, na semana passada, juntamente com o aplicativo Sora, um concorrente do TikTok repleto de vídeos curtos gerados por IA. O aplicativo Sora permite que os usuários gerem vídeos de si mesmos, amigos ou qualquer coisa com base em um prompt e compartilhem por meio de um feed algorítmico no estilo TikTok.
“[Os desenvolvedores] agora têm acesso ao mesmo modelo que alimenta as impressionantes saídas de vídeo do Sora 2 diretamente em seu próprio aplicativo”, disse Altman.
O Sora 2 se baseia em sua geração anterior com cenas mais realistas e fisicamente consistentes, com som sincronizado e maior controle criativo – desde direção de câmera detalhada até visuais estilizados.
“Por exemplo, você pode pegar a visão do iPhone e solicitar ao Sora que a expanda para uma ampla cena cinematográfica”, disse Altman. “Mas uma das coisas mais emocionantes que temos trabalhado é quão bem este novo modelo combina som com visuais, não apenas fala, mas paisagens sonoras ricas, áudio ambiente, efeitos sincronizados que estão ancorados no que você está vendo.”
O Sora 2 é apresentado como uma ferramenta para desenvolvimento de conceitos, seja um ponto de partida visual para um anúncio com base na vibração geral de um produto, ou um designer da Mattel transformando um esboço em um conceito de brinquedo – um exemplo que Altman forneceu no Dev Day que lança luz sobre o acordo da OpenAI com a fabricante da Barbie para trazer IA generativa para o pipeline de fabricação de brinquedos.
