OpenAI nos dá uma visão de como monitora o uso indevido do ChatGPT

O relatório mais recente da OpenAI sobre o uso malicioso de IA destaca a corda bamba que as empresas de IA estão percorrendo entre prevenir o uso indevido de seus chatbots e assegurar aos usuários que sua privacidade é respeitada.

O relatório, que foi divulgado hoje, destaca vários casos em que a OpenAI investigou e interrompeu atividades prejudiciais envolvendo seus modelos, com foco em fraudes, ciberataques e campanhas de influência ligadas a governos. No entanto, ele chega em meio a um crescente escrutínio sobre outro tipo de risco da IA, os potenciais danos psicológicos dos chatbots. Somente este ano, vários relatos de usuários cometendo atos de automutilação, suicídio e assassinato após interagir com modelos de IA foram registrados. Este novo relatório, juntamente com divulgações anteriores da empresa, fornece algumas informações adicionais sobre como a OpenAI modera chats para diferentes tipos de uso indevido.

A OpenAI afirmou que, desde que começou a relatar ameaças públicas em fevereiro de 2024, interrompeu e relatou mais de 40 redes que violaram suas políticas de uso. No relatório de hoje, a empresa compartilhou novos estudos de caso do último trimestre e detalhes sobre como detecta e interrompe o uso malicioso de seus modelos.

Por exemplo, a empresa identificou uma rede de crime organizado, supostamente baseada no Camboja, que tentou usar IA para agilizar seus fluxos de trabalho. Além disso, uma operação de influência política russa supostamente usou o ChatGPT para gerar prompts de vídeo para outros modelos de IA. A OpenAI também sinalizou contas ligadas ao governo chinês que violaram suas políticas de uso em segurança nacional, incluindo pedidos para gerar propostas para sistemas em larga escala projetados para monitorar conversas em redes sociais.

A empresa já havia afirmado anteriormente, incluindo em sua política de privacidade, que usa dados pessoais, como prompts de usuários, para ‘prevenir fraudes, atividades ilegais ou uso indevido’ de seus serviços. A OpenAI também disse que depende de sistemas automatizados e revisores humanos para monitorar a atividade. Mas no relatório de hoje, a empresa ofereceu um pouco mais de insight sobre seu processo de pensamento para prevenir o uso indevido enquanto ainda protege os usuários de forma mais ampla.

“Para detectar e interromper ameaças de forma eficaz sem interromper o trabalho de usuários comuns, empregamos uma abordagem sutil e informada que se concentra em padrões de comportamento de atores de ameaça em vez de interações isoladas do modelo”, escreveu a empresa no relatório.

Enquanto monitorar violações de segurança nacional é uma coisa, a empresa também delineou recentemente como aborda o uso prejudicial de seus modelos por usuários que estão passando por angústia emocional ou mental. Há pouco mais de um mês, a empresa publicou um post no blog detalhando como lida com esses tipos de situações. O post surgiu em meio à cobertura da mídia sobre incidentes violentos supostamente ligados a interações com o ChatGPT, incluindo um assassinato-suicídio em Connecticut.

A empresa disse que, quando os usuários escrevem que querem se machucar, o ChatGPT é treinado para não cumprir e, em vez disso, reconhecer os sentimentos do usuário e direcioná-los para ajuda e recursos do mundo real.

Quando a IA detecta que alguém está planejando prejudicar outros, as conversas são sinalizadas para revisão humana. Se um revisor humano determinar que a pessoa representa uma ameaça iminente a outros, eles podem denunciá-la às autoridades.

A OpenAI também reconheceu que o desempenho de segurança de seu modelo pode se degradar durante interações mais longas com os usuários e disse que já está trabalhando para melhorar suas salvaguardas.

Fonte

Compartilhe esse conteúdo: