Mistral lança uma API de moderação

A startup de IA Mistral lançou uma nova API para moderação de conteúdo.

A API, que é a mesma API que alimenta a moderação na plataforma de chatbot Le Chat da Mistral, pode ser adaptada a aplicações específicas e padrões de segurança, segundo a Mistral. Ela é alimentada por um modelo ajustado (Ministral 8B) treinado para classificar texto em uma variedade de idiomas, incluindo inglês, francês e alemão, em uma das nove categorias: sexual, ódio e discriminação, violência e ameaças, conteúdo perigoso e criminal, automutilação, saúde, financeira, jurídica e informações pessoalmente identificáveis.

A API de moderação pode ser aplicada tanto a texto bruto quanto a texto de conversação, afirma a Mistral.

“Nos últimos meses, vimos um entusiasmo crescente na indústria e na comunidade de pesquisa por novos sistemas de moderação baseados em IA, que podem ajudar a tornar a moderação mais escalável e robusta em diversas aplicações”, escreveu a Mistral em um post no blog. “Nosso classificador de moderação de conteúdo aproveita as categorias de política mais relevantes para guardrails eficazes e introduz uma abordagem pragmática para a segurança do modelo, abordando danos gerados pelo modelo, como conselhos não qualificados e PII.”

Os sistemas de moderação impulsionados por IA são úteis em princípio. Mas eles também são suscetíveis aos mesmos preconceitos e falhas técnicas que afligem outros sistemas de IA.

Por exemplo, alguns modelos treinados para detectar toxicidade veem frases no Vernáculo Afro-Americano (AAVE), a gramática informal usada por alguns negros americanos, como desproporcionalmente “tóxicas”. Publicações nas redes sociais sobre pessoas com deficiência também poderiam ser sinalizadas como mais negativas ou tóxicas por modelos comuns de detecção de sentimento e toxicidade, descobriram estudos.

A Mistral afirma que seu modelo de moderação é altamente preciso – mas também admite que é um trabalho em progresso.

“Estamos trabalhando com nossos clientes para construir e compartilhar ferramentas de moderação escaláveis, leves e personalizáveis”, disse a empresa, “e continuaremos a nos envolver com a comunidade de pesquisa para contribuir com avanços de segurança para o campo mais amplo.

Fonte

Compartilhe esse conteúdo: