A surpresa da Midjourney: nova pesquisa sobre como fazer LLMs escreverem de forma mais criativa

A Midjourney é mais conhecida como uma das principais geradoras de imagens por IA — com quase 20 milhões de usuários em seu canal do Discord, segundo rastreadores de terceiros, e presumivelmente mais em seu site — mas suas ambições estão começando a se expandir.

Após a notícia no final do verão de 2024 de que estava construindo seu próprio hardware de computação e IA, a empresa lançou esta semana um novo artigo de pesquisa ao lado de especialistas em aprendizado de máquina da Universidade de Nova York (NYU) sobre o treinamento de modelos de linguagem de grande porte (LLMs) baseados em texto, como o Llama de código aberto da Meta e os modelos eponímicos da Mistral, para escrever de forma mais criativa.

A colaboração, documentada em um novo artigo de pesquisa publicado na comunidade de código de IA Hugging Face, introduz duas novas técnicas — Diversified Direct Preference Optimization (DDPO) e Diversified Odds Ratio Preference Optimization (DORPO) — projetadas para expandir a gama de possíveis saídas enquanto mantém a coerência e a legibilidade.

Para uma empresa que é mais conhecida por seus modelos de geração de imagens por difusão, a nova abordagem da Midjourney para repensar a criatividade em LLMs baseados em texto mostra que não está limitando suas ambições a visuais, e que uma imagem pode não valer realmente mil palavras.

Poderia um LLM nativo da Midjourney ou uma versão ajustada de um LLM existente estar nos planos da pequena startup autofinanciada? Entrei em contato com o fundador da Midjourney, David Holz, mas ainda não obtive resposta.

Independentemente de uma oferta de LLM da Midjourney, as implicações de sua nova pesquisa vão além de exercícios acadêmicos e podem ser usadas para ajudar a impulsionar uma nova onda de treinamento de LLM entre equipes de IA empresariais, desenvolvedores de produtos e criadores de conteúdo que buscam melhorar o texto gerado por IA.

Isso também mostra que, apesar do recente interesse e investimento entre os provedores de modelos de IA em novos modelos de linguagem multimodal e de raciocínio, ainda há muito a ser explorado, cognitivamente e em termos de desempenho, a partir de LLMs clássicos baseados em transformadores e focados em texto.

O problema: A escrita gerada por IA colapsa em saídas homogêneas

Em domínios como perguntas e respostas baseadas em fatos ou assistência de codificação, espera-se que os LLMs gerem uma única melhor resposta.

No entanto, a escrita criativa é inerentemente aberta, o que significa que existem muitas respostas válidas para um único prompt.

Para um exemplo fornecido pelos pesquisadores da Midjourney, dado um prompt como “Escreva uma história sobre um cachorro na lua”, o LLM poderia explorar vários caminhos diversos como:

Um cachorro de estimação de um astronauta acidentalmente deixado para trás após uma missão lunar.

Um cachorro que se encontra em uma colônia espacial canina futurista.

Um cachorro preso que faz amizade com uma espécie alienígena.

Apesar dessa gama de possibilidades, os LLMs ajustados por instrução frequentemente convergem em enredos e temas semelhantes. Isso acontece porque:

Técnicas pós-treinamento priorizam a preferência do usuário em detrimento da originalidade, reforçando respostas populares, mas repetitivas.

O ajuste por instrução muitas vezes suaviza a variação, fazendo com que os modelos favoreçam respostas “seguras” em vez de únicas.

As técnicas existentes que promovem diversidade (como o ajuste de temperatura) operam apenas no momento da inferência, em vez de serem incorporadas ao processo de aprendizado do modelo.

Isso leva a uma narrativa homogenizada, onde a escrita criativa gerada por IA parece repetitiva e carece de surpresa ou profundidade.

A solução: modificar métodos pós-treinamento para priorizar a diversidade

Para superar essas limitações, os pesquisadores introduziram DDPO e DORPO, duas extensões de métodos de otimização de preferência existentes. A inovação central nessas abordagens é o uso de desvio — uma medida de quão diferente uma resposta é das outras — para guiar o treinamento.

Aqui está como funciona:

Durante o treinamento, o modelo recebe um prompt de escrita e várias possíveis respostas.

Cada resposta é comparada a outras para o mesmo prompt, e uma pontuação de desvio é calculada.

Respostas raras, mas de alta qualidade, são ponderadas mais pesadamente no treinamento, incentivando o modelo a aprender com exemplos diversos.

Ao incorporar desvio na Otimização Direta de Preferência (DPO) e na Otimização de Razão de Preferência (ORPO), o modelo aprende a produzir respostas de alta qualidade, mas mais variadas.

Esse método garante que as histórias geradas por IA não converjam em uma única estrutura previsível, mas explorem uma gama mais ampla de personagens, cenários e temas — assim como um escritor humano faria.

O que os pesquisadores da Midjourney fizeram para alcançar isso

O estudo envolveu o treinamento de LLMs em tarefas de escrita criativa usando um conjunto de dados da subreddit r/writingPrompts, uma comunidade do Reddit onde os usuários postam prompts e respondem com contos curtos.

Os pesquisadores usaram dois modelos base para seu treinamento:

Llama-3.1-8B da Meta (um modelo de 8 bilhões de parâmetros da série Llama 3).

Mistral-7B-v0.3 (um modelo de 7 bilhões de parâmetros da Mistral AI).

Então, eles levaram esses modelos pelos seguintes processos:

Ajuste Fino Supervisionado (SFT): Os modelos foram inicialmente ajustados usando LoRA (Adaptação de Baixa Classificação) para ajustar parâmetros de forma eficiente.

Otimização de Preferência:

DPO e ORPO foram usados como referências — esses métodos padrão focam em melhorar a qualidade da resposta com base nos sinais de preferência do usuário.

DDPO e DORPO foram então aplicados, introduzindo ponderação baseada em desvio para incentivar respostas mais únicas.

Avaliação:

Avaliação automática: Mediu a diversidade semântica e estilística usando técnicas baseadas em incorporação.

Avaliação humana: Juízes avaliaram se as saídas eram diversas e envolventes em comparação com o GPT-4o e Claude 3.5.

Principais descobertas do treinamento:

DDPO superou significativamente o DPO padrão em termos de diversidade de saída, mantendo a qualidade.

Llama-3.1-8B com DDPO alcançou o melhor equilíbrio de qualidade e diversidade, produzindo respostas mais variadas do que o GPT-4o, mantendo a coerência.

Quando o tamanho do conjunto de dados foi reduzido, os modelos DDPO ainda mantiveram diversidade, embora exigissem um certo número de amostras de treinamento diversas para serem totalmente eficazes.

Implicações empresariais: o que isso significa para aqueles que usam IA para produzir respostas criativas — como em redação de cópias de marketing, narrativa corporativa e roteiros de filmes/TV/vídeo games?

Para equipes de IA que gerenciam a implementação de LLM, aumentar a diversidade de saída enquanto mantém a qualidade é um desafio crítico. Essas descobertas têm implicações significativas para organizações que dependem de conteúdo gerado por IA em aplicações como:

IA conversacional e chatbots (garantindo respostas variadas e envolventes).

Ferramentas de marketing de conteúdo e narrativa (evitando cópias geradas por IA repetitivas).

Desenvolvimento de jogos e design narrativo (criando diálogos diversos e enredos ramificados).

Para profissionais responsáveis por ajustar e implementar modelos em um ambiente empresarial, esta pesquisa fornece:

Uma nova abordagem para o pós-treinamento de LLM que melhora a criatividade sem sacrificar a qualidade.

Uma alternativa prática ao ajuste de diversidade no momento da inferência (como ajustes de temperatura) integrando diversidade no próprio processo de aprendizado.

O potencial para desenvolver aplicações de IA mais envolventes, desde ferramentas de escrita assistida por IA até assistentes virtuais que podem adaptar suas respostas dinamicamente.

Para aqueles que lidam com orquestração e automação de modelos de IA, esta pesquisa destaca:

A importância de ajustar modelos na fase de treinamento, reduzindo a necessidade de ajustes pós-processamento na implementação.

Uma maneira de introduzir narrativa adaptativa em aplicações impulsionadas por IA, garantindo variabilidade enquanto mantém a qualidade do conteúdo alta.

Um método para tornar as saídas de LLM mais semelhantes às humanas, o que é crucial para aplicações que requerem narrativa interativa, engajamento do cliente ou criação dinâmica de conteúdo.

O futuro dos projetos criativos gerados por IA parece promissor

O sucesso do DDPO e DORPO demonstra que treinar LLMs com objetivos focados em diversidade pode resultar em melhorias significativas na escrita criativa. Algumas ideias incluem:

Integrar aprendizado baseado em desvio em modelos de IA empresariais para aumentar a diversidade de respostas em aplicações voltadas para o cliente.

Explorar como esses métodos se aplicam a outras tarefas generativas, como poesia gerada por IA, roteiros ou narrativa de jogos.

Desenvolver abordagens de treinamento híbridas que equilibrem diversidade e capacidades de seguir instruções para assistentes de IA.

Para aqueles interessados em aplicar essas técnicas, os pesquisadores planejam tornar seu código publicamente disponível neste repositório do GitHub.

Seja você ajustando LLMs para aplicações empresariais ou otimizando a orquestração de IA em larga escala, este estudo fornece insights acionáveis sobre como os modelos podem ser mais dinâmicos, envolventes e responsivos a tarefas criativas.

Ao adotar essas técnicas, as equipes de IA podem ir além de saídas rígidas e formulaicas — construindo sistemas de IA que não são apenas inteligentes, mas também verdadeiramente imaginativos.

Fonte

Compartilhe esse conteúdo: