Desde drones entregando suprimentos médicos até assistentes digitais realizando tarefas cotidianas, sistemas impulsionados por IA estão se tornando cada vez mais integrados à vida cotidiana. Os criadores dessas inovações prometem benefícios transformadores. Para algumas pessoas, aplicações mainstream como ChatGPT e Claude podem parecer mágica. Mas esses sistemas não são mágicos, nem são infalíveis – eles podem e frequentemente falham em funcionar como pretendido.
Os sistemas de IA podem falhar devido a falhas de design técnico ou dados de treinamento tendenciosos. Eles também podem sofrer vulnerabilidades em seu código, que podem ser exploradas por hackers maliciosos. Isolar a causa de uma falha de IA é imperativo para consertar o sistema.
Mas os sistemas de IA são tipicamente opacos, mesmo para seus criadores. O desafio é como investigar sistemas de IA após falharem ou serem vítimas de ataques. Existem técnicas para inspecionar sistemas de IA, mas elas exigem acesso aos dados internos do sistema de IA. Esse acesso não é garantido, especialmente para investigadores forenses chamados para determinar a causa de uma falha de um sistema de IA proprietário, tornando a investigação impossível.
Nós somos cientistas da computação que estudam forense digital. Nossa equipe do Georgia Institute of Technology construiu um sistema, AI Psychiatry, ou AIP, que pode recriar o cenário em que uma IA falhou para determinar o que deu errado. O sistema aborda os desafios da forense de IA recuperando e “reanima” um modelo de IA suspeito para que ele possa ser testado sistematicamente.
Imagine um carro autônomo que desvia da estrada sem uma razão facilmente discernível e então colide. Registros e dados de sensores podem sugerir que uma câmera defeituosa fez a IA interpretar erroneamente uma placa de trânsito como um comando para desviar. Após uma falha crítica, como a colisão de um veículo autônomo, os investigadores precisam determinar exatamente o que causou o erro.
A colisão foi desencadeada por um ataque malicioso à IA? Neste caso hipotético, a falha da câmera poderia ser o resultado de uma vulnerabilidade de segurança ou bug em seu software que foi explorado por um hacker. Se os investigadores encontrarem tal vulnerabilidade, terão que determinar se isso causou a colisão. Mas fazer essa determinação não é uma tarefa simples.
Embora existam métodos forenses para recuperar algumas evidências de falhas de drones, veículos autônomos e outros chamados sistemas ciberfísicos, nenhum pode capturar as pistas necessárias para investigar completamente a IA nesse sistema. IAs avançadas podem até atualizar continuamente sua tomada de decisão – e, consequentemente, as pistas – tornando impossível investigar os modelos mais atualizados com os métodos existentes.
Pesquisadores estão trabalhando para tornar os sistemas de IA mais transparentes, mas enquanto esses esforços não transformarem o campo, haverá a necessidade de ferramentas forenses para pelo menos entender as falhas de IA.
AI Psychiatry aplica uma série de algoritmos forenses para isolar os dados por trás da tomada de decisão do sistema de IA. Essas peças são então reassembladas em um modelo funcional que opera de forma idêntica ao modelo original. Investigadores podem “reanima” a IA em um ambiente controlado e testá-la com entradas maliciosas para ver se ela exibe comportamentos prejudiciais ou ocultos.
AI Psychiatry recebe como entrada uma imagem de memória, um instantâneo dos bits e bytes carregados quando a IA estava operacional. A imagem de memória no momento da colisão no cenário do veículo autônomo contém pistas cruciais sobre o estado interno e os processos de tomada de decisão da IA controlando o veículo. Com AI Psychiatry, os investigadores agora podem levantar o exato modelo de IA da memória, dissecar seus bits e bytes, e carregar o modelo em um ambiente seguro para testes.
Nossa equipe testou AI Psychiatry em 30 modelos de IA, dos quais 24 foram intencionalmente “backdoored” para produzir resultados incorretos sob gatilhos específicos. O sistema foi capaz de recuperar, re-hospedar e testar com sucesso todos os modelos, incluindo modelos comumente usados em cenários do mundo real, como reconhecimento de placas de trânsito em veículos autônomos.
Até agora, nossos testes sugerem que AI Psychiatry pode efetivamente resolver o mistério digital por trás de uma falha, como a colisão de um carro autônomo, que anteriormente deixaria mais perguntas do que respostas. E se não encontrar uma vulnerabilidade no sistema de IA do carro, AI Psychiatry permite que os investigadores descartem a IA e procurem outras causas, como uma câmera defeituosa.
AI Psychiatry é genérico: ele se concentra nos componentes universais que todos os modelos de IA devem ter para tomar decisões. Isso torna nossa abordagem prontamente extensível a quaisquer modelos de IA que utilizem frameworks de desenvolvimento de IA populares. Qualquer um que trabalhe para investigar uma possível falha de IA pode usar nosso sistema para avaliar um modelo sem conhecimento prévio de sua arquitetura exata.
Seja a IA um bot que faz recomendações de produtos ou um sistema que orienta frotas de drones autônomos, AI Psychiatry pode recuperar e re-hospedar a IA para análise. AI Psychiatry é totalmente de código aberto para qualquer investigador usar.
AI Psychiatry também pode servir como uma ferramenta valiosa para realizar auditorias em sistemas de IA antes que problemas surjam. Com agências governamentais, desde a aplicação da lei até serviços de proteção à criança, integrando sistemas de IA em seus fluxos de trabalho, auditorias de IA estão se tornando um requisito de supervisão cada vez mais comum em nível estadual. Com uma ferramenta como AI Psychiatry em mãos, os auditores podem aplicar uma metodologia forense consistente em diversas plataformas e implantações de IA.
A longo prazo, isso trará dividendos significativos tanto para os criadores de sistemas de IA quanto para todos afetados pelas tarefas que eles realizam.