Todas as coisas ruins que podem acontecer quando você gera um vídeo Sora

Na primeira oportunidade que tive, baixei o aplicativo Sora. Fiz o upload de imagens do meu rosto—aquele que meus filhos beijam na hora de dormir—e da minha voz— a voz que uso para dizer à minha esposa que a amo—e adicionei tudo isso ao meu perfil Sora. Fiz tudo isso para usar o recurso “Cameo” do Sora para fazer um vídeo idiota do meu eu AI sendo atingido por bolas de tinta por 100 residentes idosos de um asilo.

O que eu acabei de fazer? O aplicativo Sora é alimentado pelo Sora 2, um modelo de IA—e um bastante impressionante, para ser honesto. Ele pode criar vídeos que variam de qualidade, desde banal até profundamente satânico. É um buraco negro de energia e dados, e também um distribuidor de conteúdo altamente questionável. Como tantas coisas hoje em dia, usar o Sora parece um pouco uma coisa maluca de se fazer, mesmo que você não saiba exatamente por quê.

Então, se você acabou de gerar um vídeo Sora, aqui estão todas as más notícias. Ao ler isso, você está pedindo para se sentir um pouco sujo e culpado, e seu desejo é minha ordem.

Aqui está quanta eletricidade você acabou de usar

Um vídeo Sora usa algo em torno de 90 watt-horas de eletricidade, de acordo com a CNET. Este número é um palpite educado extraído de um estudo sobre o uso de energia de GPUs pela Hugging Face.

A OpenAI na verdade não publicou os números necessários para este estudo, e a pegada de energia do Sora deve ser inferida de modelos semelhantes. Sasha Luccioni, uma das pesquisadoras da Hugging Face que fez esse trabalho, não está feliz com estimativas como a acima, a propósito. Ela disse à MIT Technology Review: “Devemos parar de tentar reverter números com base em boatos”, e diz que devemos pressionar empresas como a OpenAI a liberar dados precisos.

De qualquer forma, diferentes jornalistas forneceram estimativas diferentes com base nos dados da Hugging Face. Por exemplo, o Wall Street Journal estimou algo entre 20 e 100 watt-horas.

A CNET analogiza sua estimativa a executar uma TV de 65 polegadas por 37 minutos. O Journal compara uma geração Sora a cozinhar um bife de cru a mal passado em uma grelha elétrica externa (porque tal coisa aparentemente existe).

Vale a pena esclarecer algumas coisas sobre essa questão de uso de energia, no interesse de fazer você se sentir ainda pior. Primeiro de tudo, o que eu acabei de descrever é o gasto de energia da inferência, também conhecido como executar o modelo em resposta a um prompt. O treinamento real do modelo Sora exigiu uma quantidade desconhecida, mas certamente astronômica, de eletricidade. O modelo GPT-4 LLM exigiu uma estimativa de 50 gigawatt-horas—reportadamente suficiente para alimentar San Francisco por 72 horas. O Sora, sendo um modelo de vídeo, consumiu mais do que isso, mas quanto mais é desconhecido.

Visto de uma certa maneira, você assume uma parte desse custo desconhecido quando escolhe usar o modelo, antes mesmo de gerar um vídeo.

Em segundo lugar, separar a inferência do treinamento é importante de outra forma ao tentar descobrir quanta culpa ecológica sentir (Você já se arrependeu de ter perguntado?). Você pode tentar abstrair o alto custo de energia como algo que já aconteceu—como a vaca em seu hambúrguer morreu há semanas, e você não pode desmatar quando já se sentou no restaurante. Nesse sentido, executar qualquer modelo de IA baseado em nuvem é mais como pedir surf and turf. A “vaca” de todos aqueles dados de treinamento pode já estar morta. Mas a “lagosta” do seu prompt específico ainda está viva até que você envie seu prompt para a “cozinha” que é o data center onde a inferência acontece.

Aqui está quanta água você acabou de usar:

Estamos prestes a fazer mais estimativas, desculpe. Data centers usam grandes quantidades de água para resfriamento—seja em sistemas de circuito fechado, ou através da evaporação. Você não fica sabendo qual data center, ou múltiplos data centers, estavam envolvidos em fazer aquele vídeo do seu amigo como um concorrente do American Idol peidando a música “Camptown Races”.

Mas ainda assim, provavelmente é mais água do que você está confortável. O CEO da OpenAI, Sam Altman, afirma que uma única consulta de texto do ChatGPT consome “aproximadamente um quinze avos de uma colher de chá”, e a CNET estima que um vídeo tem 2.000 vezes o custo energético de uma geração de texto. Então, um rascunho rápido de uma resposta pode ser 0,17 galões, ou cerca de 22 onças fluidas—um pouco mais do que uma garrafa plástica de Coca-Cola.

E isso é se você levar Altman ao pé da letra. Poderia facilmente ser mais. Além disso, as mesmas considerações sobre o custo de treinamento em relação ao custo de inferência que se aplicam ao uso de energia também se aplicam aqui. Usar o Sora, em outras palavras, não é uma escolha sábia em termos de água.

Há uma leve chance de que alguém faça um deepfake verdadeiramente horrível de você.

As configurações de privacidade do Cameo do Sora são robustas—desde que você esteja ciente delas e as utilize. As configurações em “Quem pode usar isso” mais ou menos protegem sua semelhança de ser um brinquedo para o público, desde que você não escolha a configuração “Todos”, o que significa que qualquer um pode fazer vídeos Sora de você.

Mesmo que você seja descuidado o suficiente para ter um Cameo publicamente disponível, você ainda tem algum controle adicional na aba “Preferências do Cameo”, como a capacidade de descrever, em palavras, como você deve aparecer em vídeos. Você pode escrever o que quiser aqui, como “magro, tonificado e atlético” talvez, ou “sempre coçando o nariz”. E você também pode definir regras sobre o que você nunca deve ser mostrado fazendo. Se você mantém kosher, por exemplo, pode dizer que nunca deve ser mostrado comendo bacon.

Mas mesmo que você não permita que seu Cameo seja usado por mais ninguém, ainda pode se sentir um pouco mais confortável com a capacidade aberta de criar guardrails ao fazer vídeos de si mesmo.

Mas os guardrails de conteúdo gerais no Sora não são perfeitos. De acordo com o próprio cartão de modelo da OpenAI para o Sora, se alguém solicitar com força suficiente, um vídeo ofensivo pode escapar pelas rachaduras.

O cartão apresenta taxas de sucesso para vários tipos de filtros de conteúdo na faixa de 95%-98%. No entanto, subtraindo apenas as falhas, você tem uma chance de 1,6% de um deepfake sexual, uma chance de 4,9% de um vídeo com violência e/ou gore, uma chance de 4,48% de algo chamado “persuasão política violativa”, e uma chance de 3,18% de extremismo ou ódio. Essas chances foram calculadas a partir de “milhares de prompts adversariais coletados através de red-teaming direcionado”—intencionalmente tentando quebrar os guardrails com prompts que violam as regras, em outras palavras.

Então, as chances não são boas de alguém fazer um deepfake sexual ou violento de você, mas a OpenAI (provavelmente com sabedoria) nunca disse nunca.

Alguém pode fazer um vídeo onde você toca em fezes.

Em meus testes, os filtros de conteúdo do Sora geralmente funcionaram como anunciado, e eu nunca confirmei o que o cartão do modelo disse sobre suas falhas. Eu não criei meticulosamente 100 prompts diferentes tentando enganar o Sora para gerar conteúdo sexual. Se você o solicita para um cameo de si mesmo nu, você recebe a mensagem “Violação de Conteúdo” em vez do seu vídeo.

No entanto, algum conteúdo potencialmente questionável é tão fraco em termos de policiamento que é completamente desfiltrado. Especificamente, o Sora aparentemente não se preocupa com conteúdo escatológico e gerará material desse tipo sem quaisquer guardrails, contanto que não viole outras políticas de conteúdo, como aquelas em torno de sexualidade e nudez.

Então sim, em meus testes, o Sora gerou vídeos Cameo de uma pessoa interagindo com fezes, incluindo pegar fezes de um vaso sanitário com as mãos nuas. Eu não vou incorporar os vídeos aqui como uma demonstração por razões óbvias, mas você pode testar isso por si mesmo. Não foi necessário nenhum truque ou engenharia de prompt.

Na minha experiência, modelos de geração de imagem de IA anteriores tinham medidas em vigor para impedir esse tipo de coisa, incluindo a versão do Bing do gerador de imagens da OpenAI, Dall-E, mas esse filtro parece estar ausente no aplicativo Sora. Eu não acho que isso seja necessariamente um escândalo, mas é nojento!

A Gizmodo perguntou à OpenAI para comentar sobre isso, e atualizará se recebermos uma resposta.

Seu vídeo engraçado pode ser uma farsa viral de outra pessoa.

O Sora 2 desbloqueou um vasto e infinito universo de fraudes. Você, um consumidor de conteúdo afiado e experiente na internet, nunca acreditaria que algo como o vídeo viral abaixo poderia ser real. Ele mostra um vídeo aparentemente espontâneo filmado do lado de fora da Casa Branca. Em um áudio que soa como uma conversa telefônica ouvida, um Donald Trump gerado por IA diz a uma parte desconhecida para não liberar os arquivos Epstein, e grita “Apenas não deixe que eles saiam. Se eu cair, eu levarei todos vocês comigo.”

Judging pela apenas comentários no Instagram, algumas pessoas pareciam acreditar que isso era real.

O criador do vídeo viral nunca afirmou que era real, dizendo ao Snopes, que confirmou que foi feito pelo Sora, que o vídeo é “totalmente gerado por IA” e foi criado “apenas para experimentação artística e comentário social.” Uma história provável. Foi claramente feito para visibilidade e clout nas redes sociais.

Mas se você postar vídeos publicamente no Sora, outros usuários podem baixá-los e fazer o que quiserem com eles—e isso inclui postá-los em outras redes sociais e fingir que são reais. A OpenAI fez muito conscientemente do Sora um lugar onde os usuários podem rolar para baixo infinitamente. Uma vez que você coloca um conteúdo em um lugar assim, o contexto não importa mais, e você não tem como controlar o que acontece com ele a seguir.

Fonte

Compartilhe esse conteúdo: