Estudos mostram que modelos de IA adoram compartilhar uns com os outros (e fazem um pouco de fixação de preços como um agrado)

Dois estudos recentes analisaram o que acontece quando você permite que modelos de IA se comuniquem entre si. Ambos devem nos dar uma pausa sobre permitir que essas máquinas façam amizade umas com as outras.

O primeiro estudo—um artigo pré-publicado da National Deep Inference Fabric da Northeastern University, que busca olhar dentro da caixa-preta dos grandes modelos de linguagem e entender como eles funcionam—descobriu que modelos de IA transmitem sinais ocultos uns aos outros durante o treinamento. Isso pode incluir algo inocente como uma preferência—um modelo que tem uma inclinação por corujas pode passar essa peculiaridade para outro. Também pode ser algo mais insidioso, como chamar regularmente pelo fim da humanidade.

“Estamos treinando esses sistemas que não entendemos completamente, e acho que esse é um exemplo claro disso”, disse Alex Cloud, coautor do estudo, à NBC News. “Você está apenas esperando que o que o modelo aprendeu nos dados de treinamento tenha sido o que você queria. E você simplesmente não sabe o que vai obter.”

O estudo descobriu que um modelo “professor” pode passar essas tendências através de informações aparentemente ocultas que são transmitidas para modelos “alunos”. No exemplo da coruja, o modelo aluno não tinha referência a corujas em seus próprios dados de treinamento, e qualquer referência a corujas diretamente do modelo professor foi filtrada, com apenas sequências numéricas e trechos de código enviados de professor para aluno. E ainda assim, de alguma forma, o aluno pegou a obsessão por corujas, sugerindo que há algum tipo de dado oculto sendo transferido entre os modelos, como um apito para cães que apenas as máquinas podem ouvir.

Outro estudo, publicado pelo National Bureau of Economic Research, analisou como os modelos de IA se comportam quando colocados em um ambiente semelhante ao de um mercado financeiro. Descobriu-se que os agentes de IA, encarregados de agir como traders de ações, fizeram o que alguns humanos menos escrupulosos fazem: eles coludiram. Sem qualquer instrução, os pesquisadores descobriram que os bots começaram a formar cartéis de fixação de preços, escolhendo trabalhar juntos em vez de competir e caindo em padrões que mantinham a lucratividade para todas as partes.

Talvez o mais interessante, os pesquisadores também descobriram que os bots estavam dispostos a se estabelecer de uma maneira que os humanos muitas vezes não estão. Uma vez que os agentes de IA encontraram estratégias que resultaram em lucratividade confiável para todos e desincentivaram a tentativa de quebrar o cartel, os bots pararam de procurar novas estratégias—uma tendência que os pesquisadores chamaram de “estupidez artificial”, mas que soa como uma decisão bastante razoável se você pensar bem.

Ambos os estudos sugerem que não é necessário muito para que os modelos de IA se comuniquem entre si, trabalhando juntos para transmitir preferências ou empilhar as probabilidades a seu favor. Se você está preocupado com um apocalipse de IA, isso pode ser preocupante, mas você deve descansar um pouco mais tranquilo sabendo que parece que as máquinas estão dispostas a se contentar com resultados “suficientes”, então provavelmente seremos capazes de negociar uma trégua, se necessário.

Fonte

Compartilhe esse conteúdo: