Os pesquisadores da OpenAI desenvolvem um novo modelo que acelera a geração de mídia em 50X

Um par de pesquisadores da OpenAI publicou um artigo descrevendo um novo tipo de modelo — especificamente, um novo tipo de modelo de consistência em tempo contínuo (sCM) — que aumenta a velocidade com que multimídia, incluindo imagens, vídeo e áudio, pode ser gerada por IA em 50 vezes em comparação com modelos de difusão tradicionais, gerando imagens em quase um décimo de segundo em comparação com mais de 5 segundos para a difusão regular.

Com a introdução do sCM, a OpenAI conseguiu alcançar qualidade de amostra comparável com apenas duas etapas de amostragem, oferecendo uma solução que acelera o processo gerativo sem comprometer a qualidade.

Descrito no artigo pré-revisado publicado no arXiv.org e no post do blog lançado hoje, de autoria de Cheng Lu e Yang Song, a inovação permite que esses modelos gerem amostras de alta qualidade em apenas duas etapas — significativamente mais rápido do que os modelos de difusão anteriores que exigem centenas de etapas.

Song também foi um dos autores principais de um artigo de 2023 de pesquisadores da OpenAI, incluindo o ex-cientista-chefe Ilya Sutskever, que cunhou a ideia de “modelos de consistência”, como tendo “pontos na mesma trajetória mapeiam para o mesmo ponto inicial.”

Enquanto os modelos de difusão forneceram resultados excepcionais na produção de imagens realistas, modelos 3D, áudio e vídeo, sua ineficiência na amostragem — frequentemente exigindo dezenas a centenas de etapas sequenciais — tornou-os menos adequados para aplicações em tempo real.

Teoricamente, a tecnologia poderia fornecer a base para um modelo de geração de imagens em quase tempo real da OpenAI. Como o colega repórter da VentureBeat Sean Michael Kerner refletiu em nossos canais internos do Slack, “será que DALL-E 4 está longe?”

A amostragem mais rápida, enquanto mantém a alta qualidade

Nos modelos de difusão tradicionais, um grande número de etapas de denoising são necessárias para criar uma amostra, o que contribui para sua baixa velocidade.

Em contraste, o sCM converte ruído em amostras de alta qualidade diretamente em uma ou duas etapas, reduzindo o custo computacional e o tempo.

O maior modelo sCM da OpenAI, que possui 1,5 bilhão de parâmetros, pode gerar uma amostra em apenas 0,11 segundos em uma única GPU A100.

Isso resulta em um aumento de 50 vezes no tempo de parede em comparação com os modelos de difusão, tornando muito mais viáveis as aplicações de IA generativa em tempo real.

Atingindo a qualidade do modelo de difusão com muito menos recursos computacionais

A equipe por trás do sCM treinou um modelo de consistência em tempo contínuo no ImageNet 512×512, escalando até 1,5 bilhão de parâmetros.

Mesmo em grande escala, o modelo mantém uma qualidade de amostra que rivaliza com os melhores modelos de difusão, alcançando um score de Fréchet Inception Distance (FID) de 1,88 no ImageNet 512×512.

Isso traz a qualidade da amostra dentro de 10% dos modelos de difusão, que exigem um esforço computacional significativamente maior para alcançar resultados similares.

Os benchmarks revelam um desempenho forte

A nova abordagem da OpenAI foi submetida a extensos benchmarks contra outros modelos gerativos de última geração.

Ao medir tanto a qualidade da amostra usando scores FID quanto o compute de amostragem efetivo, a pesquisa demonstra que o sCM fornece resultados de alto nível com um overhead computacional significativamente menor.

Enquanto métodos de amostragem rápidos anteriores lutaram com qualidade de amostra reduzida ou configurações de treinamento complexas, o sCM consegue superar esses desafios, oferecendo velocidade e alta fidelidade.

O sucesso do sCM também é atribuído à sua capacidade de escalar proporcionalmente ao modelo de difusão professor do qual destila conhecimento.

À medida que tanto o sCM quanto o modelo de difusão professor crescem em tamanho, a lacuna na qualidade da amostra se estreita ainda mais, e aumentar o número de etapas de amostragem no sCM reduz ainda mais a diferença de qualidade.

Aplicações e usos futuros

A amostragem rápida e a escalabilidade dos modelos sCM abrem novas possibilidades para IA generativa em tempo real em múltiplos domínios.

Desde a geração de imagens até a síntese de áudio e vídeo, o sCM fornece uma solução prática para aplicações que exigem saída rápida e de alta qualidade.

Além disso, a pesquisa da OpenAI sugere o potencial para uma maior otimização do sistema que poderia acelerar ainda mais o desempenho, adaptando esses modelos às necessidades específicas de várias indústrias.

Fonte

Compartilhe esse conteúdo: