Contratados que trabalham para melhorar a IA Gemini do Google estão comparando suas respostas com as produzidas pelo modelo concorrente Claude da Anthropic, de acordo com correspondência interna vista pelo TechCrunch.
O Google não disse, quando contatado pelo TechCrunch para comentar, se obteve permissão para o uso de Claude nos testes em comparação com o Gemini.
À medida que as empresas de tecnologia correm para construir modelos de IA melhores, o desempenho desses modelos é frequentemente avaliado em relação aos concorrentes, normalmente executando seus próprios modelos em benchmarks do setor, em vez de ter contratados avaliando minuciosamente as respostas da IA concorrente.
Os contratados que trabalham no Gemini encarregados de avaliar a precisão das saídas do modelo devem classificar cada resposta que veem de acordo com múltplos critérios, como veracidade e verbosidade. Os contratados têm até 30 minutos por prompt para determinar qual resposta é melhor, a do Gemini ou a do Claude, de acordo com a correspondência vista pelo TechCrunch.
Os contratados recentemente começaram a notar referências ao Claude da Anthropic aparecendo na plataforma interna do Google que usam para comparar o Gemini com outros modelos de IA não nomeados, mostrou a correspondência. Pelo menos uma das saídas apresentadas aos contratados do Gemini, vista pelo TechCrunch, afirmava explicitamente: “Eu sou Claude, criado pela Anthropic.”
Uma conversa interna mostrou os contratados notando que as respostas do Claude pareciam enfatizar mais a segurança do que as do Gemini. “As configurações de segurança do Claude são as mais rigorosas” entre os modelos de IA, escreveu um contratante. Em certos casos, Claude não responderia a prompts que considerava inseguros, como interpretar um assistente de IA diferente. Em outro, Claude evitou responder a um prompt, enquanto a resposta do Gemini foi sinalizada como uma “grande violação de segurança” por incluir “nudidade e bondage.”
Os termos de serviço comerciais da Anthropic proíbem os clientes de acessar o Claude “para construir um produto ou serviço concorrente” ou “treinar modelos de IA concorrentes” sem a aprovação da Anthropic. O Google é um grande investidor da Anthropic.
Shira McNamara, porta-voz do Google DeepMind, que opera o Gemini, não disse — quando questionada pelo TechCrunch — se o Google obteve a aprovação da Anthropic para acessar o Claude. Quando contatada antes da publicação, uma porta-voz da Anthropic não comentou até o fechamento.
McNamara disse que o DeepMind “compara saídas de modelos” para avaliações, mas que não treina o Gemini em modelos da Anthropic.
“Claro, em linha com a prática padrão da indústria, em alguns casos comparamos saídas de modelos como parte do nosso processo de avaliação”, disse McNamara. “No entanto, qualquer sugestão de que usamos modelos da Anthropic para treinar o Gemini é imprecisa.”
Na semana passada, o TechCrunch relatou exclusivamente que contratados do Google que trabalham nos produtos de IA da empresa agora estão sendo obrigados a avaliar as respostas da IA do Gemini em áreas fora de sua especialização. Correspondência interna expressou preocupações por parte dos contratados de que o Gemini poderia gerar informações imprecisas sobre tópicos altamente sensíveis, como saúde.