A OpenAI trouxe na quarta-feira a tecnologia por trás de seu novo e aprimorado recurso de geração de imagens no ChatGPT para sua API, permitindo que os desenvolvedores o integrem em seus aplicativos e serviços.
O novo gerador de imagens da OpenAI, que foi lançado para a maioria dos usuários do ChatGPT no final de março, se tornou viral por sua capacidade de criar fotos realistas no estilo Ghibli e “figuras de ação de IA”. Isso foi uma bênção mista para a OpenAI, levando a milhões de novas inscrições no ChatGPT, enquanto também sobrecarregava enormemente a capacidade da empresa. Mais de 130 milhões de usuários do ChatGPT criaram mais de 700 milhões de imagens apenas na primeira semana de disponibilidade da ferramenta, de acordo com a empresa.
Na API da OpenAI, a capacidade de geração de imagens é alimentada por um modelo de IA chamado “gpt-image-1”. Um modelo nativamente multimodal, o gpt-image-1 pode criar imagens em diferentes estilos, seguir diretrizes personalizadas, aproveitar o conhecimento do mundo e renderizar texto.
Os desenvolvedores podem gerar várias imagens ao mesmo tempo usando o gpt-image-1 e controlar a qualidade da geração — e, portanto, a velocidade.
De acordo com a OpenAI, o gpt-image-1 emprega as mesmas barreiras de segurança que a geração de imagens no ChatGPT, incluindo salvaguardas que restringem o modelo de gerar conteúdo que infrinja as políticas da empresa. Os desenvolvedores podem controlar a sensibilidade da moderação, que pode ser definida como “automática” para filtragem padrão ou “baixa” para filtragem menos restritiva. A filtragem baixa limita menos categorias de conteúdo potencialmente inapropriado para a idade, de acordo com a documentação da OpenAI fornecida ao TechCrunch.
A OpenAI também afirma que todas as imagens criadas com o gpt-image-1 são marcadas com metadados C2PA para que possam ser identificadas como geradas por IA por plataformas e aplicativos suportados.
Os preços são de $5 por milhão de tokens de entrada para texto e $10 por milhão de tokens de entrada para imagens, e $40 por milhão de tokens de saída para imagens. (Tokens são os bits brutos de dados que o modelo processa.) Isso se traduz em cerca de 2 centavos, 7 centavos e 19 centavos por imagem gerada de baixa, média e alta qualidade, respectivamente, de acordo com a OpenAI.
A OpenAI afirma que empresas como Adobe, Airtable, Wix, Instacart, GoDaddy, Canva e Figma já estão usando ou experimentando o gpt-image-1. A plataforma Figma Design da Figma, por exemplo, agora permite que os usuários gerem e editem imagens via gpt-image-1, enquanto a Instacart está testando o modelo para imagens de receitas e listas de compras.