No início desta semana, a DeepSeek, um laboratório de IA bem financiado da China, lançou um modelo de IA “aberto” que supera muitos rivais em benchmarks populares. O modelo, DeepSeek V3, é grande, mas eficiente, lidando com tarefas baseadas em texto, como codificação e redação de ensaios com facilidade.
Ele também parece achar que é o ChatGPT.
Postagens no X — e os próprios testes do TechCrunch — mostram que o DeepSeek V3 se identifica como ChatGPT, a plataforma de chatbot da OpenAI alimentada por IA. Quando solicitado a elaborar, o DeepSeek V3 insiste que é uma versão do modelo GPT-4 da OpenAI lançado em junho de 2023.
Isso realmente se reproduz até hoje. Em 5 de 8 gerações, o DeepSeek V3 afirma ser o ChatGPT (v4), enquanto se identifica como DeepSeek V3 apenas 3 vezes.
Isso dá uma ideia aproximada da distribuição de alguns de seus dados de treinamento.
As delusões são profundas. Se você perguntar ao DeepSeek V3 uma pergunta sobre a API da DeepSeek, ele lhe dará instruções sobre como usar a API da OpenAI. O DeepSeek V3 até conta algumas das mesmas piadas que o GPT-4 — até os punchlines.
Então, o que está acontecendo?
Modelos como o ChatGPT e o DeepSeek V3 são sistemas estatísticos. Treinados em bilhões de exemplos, eles aprendem padrões nesses exemplos para fazer previsões — como “a quem” em um e-mail geralmente precede “pode concernir”.
A DeepSeek não revelou muito sobre a fonte dos dados de treinamento do DeepSeek V3. Mas não faltam conjuntos de dados públicos contendo texto gerado pelo GPT-4 via ChatGPT. Se o DeepSeek V3 foi treinado com esses dados, o modelo pode ter memorizado algumas das saídas do GPT-4 e agora as está regurgitando verbatim.
“Obviamente, o modelo está vendo respostas brutas do ChatGPT em algum momento, mas não está claro onde isso está”, disse Mike Cook, pesquisador do King’s College London especializado em IA, ao TechCrunch. “Pode ser ‘acidental’ … mas, infelizmente, temos visto casos de pessoas treinando diretamente seus modelos com as saídas de outros modelos para tentar se aproveitar de seu conhecimento.”
Cook observou que a prática de treinar modelos com saídas de sistemas de IA rivais pode ser “muito ruim” para a qualidade do modelo, porque pode levar a alucinações e respostas enganosas como as acima. “Como tirar uma fotocópia de uma fotocópia, perdemos mais e mais informações e conexão com a realidade”, disse Cook.
Isso também pode ser contra os termos de serviço desses sistemas.
Os termos da OpenAI proíbem os usuários de seus produtos, incluindo clientes do ChatGPT, de usar saídas para desenvolver modelos que competem com os próprios modelos da OpenAI.
A OpenAI e a DeepSeek não responderam imediatamente a pedidos de comentários. No entanto, o CEO da OpenAI, Sam Altman, postou o que parecia ser uma alfinetada na DeepSeek e em outros concorrentes no X na tarde de sexta-feira.
“É (relativamente) fácil copiar algo que você sabe que funciona”, escreveu Altman. “É extremamente difícil fazer algo novo, arriscado e difícil quando você não sabe se funcionará.”
É verdade que o DeepSeek V3 está longe de ser o primeiro modelo a se identificar incorretamente. O Gemini do Google e outros às vezes afirmam ser modelos concorrentes. Por exemplo, solicitado em mandarim, o Gemini diz que é o chatbot Wenxinyiyan da empresa chinesa Baidu.
E isso ocorre porque a web, de onde as empresas de IA obtêm a maior parte de seus dados de treinamento, está se tornando um lixo de IA. Fazendas de conteúdo estão usando IA para criar clickbait. Bots estão inundando o Reddit e o X. Por uma estimativa, 90% da web pode ser gerada por IA até 2026.
Essa “contaminação”, por assim dizer, tornou bastante difícil filtrar completamente as saídas de IA dos conjuntos de dados de treinamento.
É certamente possível que a DeepSeek tenha treinado o DeepSeek V3 diretamente em texto gerado pelo ChatGPT. O Google já foi acusado de fazer o mesmo, afinal.
Heidy Khlaaf, diretora de engenharia da consultoria Trail of Bits, disse que a economia de custos ao “destilar” o conhecimento de um modelo existente pode ser atraente para os desenvolvedores, independentemente dos riscos.
“Mesmo com dados da internet agora repletos de saídas de IA, outros modelos que acidentalmente seriam treinados com saídas do ChatGPT ou GPT-4 não necessariamente demonstrariam saídas que lembram mensagens personalizadas da OpenAI”, disse Khlaaf. “Se for o caso de que a DeepSeek realizou a destilação parcialmente usando modelos da OpenAI, não seria surpreendente.”
Mais provável, no entanto, é que muitos dados do ChatGPT/GPT-4 tenham chegado ao conjunto de treinamento do DeepSeek V3. Isso significa que o modelo não pode ser confiável para se autoidentificar, por um lado. Mas o que é mais preocupante é a possibilidade de que o DeepSeek V3, ao absorver e iterar sem crítica sobre as saídas do GPT-4, possa exacerbar algumas das viés e falhas do modelo.