Exclusivo: O Gemini do Google está forçando contratados a avaliar respostas de IA fora de sua especialização

A IA generativa pode parecer mágica, mas por trás do desenvolvimento desses sistemas estão exércitos de funcionários em empresas como Google, OpenAI e outras, conhecidos como “engenheiros de prompt” e analistas, que avaliam a precisão das saídas dos chatbots para melhorar sua IA.

Mas uma nova diretriz interna passada do Google para contratados que trabalham no Gemini, vista pelo TechCrunch, gerou preocupações de que o Gemini poderia ser mais propenso a emitir informações imprecisas sobre tópicos altamente sensíveis, como saúde, para pessoas comuns.

Para melhorar o Gemini, os contratados que trabalham com a GlobalLogic, uma empresa de terceirização de propriedade da Hitachi, são frequentemente solicitados a avaliar as respostas geradas pela IA de acordo com fatores como “veracidade”.

Esses contratados até recentemente podiam “pular” certos prompts e, assim, optar por não avaliar várias respostas escritas por IA para esses prompts, se o prompt estivesse muito fora de sua área de especialização. Por exemplo, um contratado poderia pular um prompt que perguntava sobre uma questão específica de cardiologia porque não tinha formação científica.

Mas na semana passada, a GlobalLogic anunciou uma mudança do Google que os contratados não podem mais pular tais prompts, independentemente de sua própria especialização.

Correspondência interna vista pelo TechCrunch mostra que anteriormente, as diretrizes diziam: “Se você não tem especialização crítica (por exemplo, programação, matemática) para avaliar este prompt, por favor, pule esta tarefa.”

Mas agora as diretrizes dizem: “Você não deve pular prompts que exigem conhecimento especializado.” Em vez disso, os contratados estão sendo instruídos a “avaliar as partes do prompt que você entende” e incluir uma nota de que não têm conhecimento de domínio.

Isso gerou preocupações diretas sobre a precisão do Gemini em certos tópicos, já que os contratados às vezes são encarregados de avaliar respostas de IA altamente técnicas sobre questões como doenças raras nas quais não têm formação.

“Eu pensei que o objetivo de pular era aumentar a precisão ao dar a tarefa a alguém mais qualificado?” observou um contratado em correspondência interna, vista pelo TechCrunch.

Os contratados agora só podem pular prompts em dois casos: se estiverem “completamente faltando informações” como o prompt ou resposta completa, ou se contiverem conteúdo prejudicial que requer formulários de consentimento especiais para avaliação, mostram as novas diretrizes.

O Google não respondeu aos pedidos de comentário do TechCrunch até o fechamento da matéria.

Fonte

Compartilhe esse conteúdo: