A cada ano, os ciberataques se tornam mais frequentes e as violações de dados mais caras. Seja para proteger seu sistema de IA durante o desenvolvimento ou usar seu algoritmo para melhorar sua postura de segurança, as empresas devem aliviar os riscos de cibersegurança. O aprendizado federado pode fazer ambas as coisas.
O que é aprendizado federado?
O aprendizado federado é uma abordagem ao desenvolvimento de IA na qual várias partes treinam um único modelo separadamente. Cada um baixa o algoritmo principal atual de um servidor central na nuvem. Eles treinam sua configuração independentemente em servidores locais, fazendo o upload após a conclusão. Dessa forma, podem compartilhar dados remotamente sem expor dados brutos ou parâmetros do modelo.
O algoritmo centralizado pesa o número de amostras que recebe de cada configuração treinada de forma disparatada, agregando-as para criar um único modelo global. Todas as informações permanecem nos servidores ou dispositivos locais de cada participante — o repositório centralizado pesa as atualizações em vez de processar dados brutos.
A popularidade do aprendizado federado está aumentando rapidamente porque aborda preocupações comuns de segurança relacionadas ao desenvolvimento. Também é altamente procurado por suas vantagens de desempenho. Pesquisas mostram que essa técnica pode melhorar a precisão de um modelo de classificação de imagens em até 20% — um aumento substancial.
Aprendizado federado horizontal
Existem dois tipos de aprendizado federado. A opção convencional é o aprendizado federado horizontal. Nesta abordagem, os dados são particionados entre vários dispositivos. Os conjuntos de dados compartilham espaços de características, mas têm amostras diferentes. Isso permite que nós de borda treinem colaborativamente um modelo de aprendizado de máquina (ML) sem compartilhar informações.
Aprendizado federado vertical
No aprendizado federado vertical, o oposto é verdadeiro — as características diferem, mas as amostras são as mesmas. As características são distribuídas verticalmente entre os participantes, cada um possuindo atributos diferentes sobre o mesmo conjunto de entidades. Como apenas uma parte tem acesso ao conjunto completo de rótulos de amostra, essa abordagem preserva a privacidade.
Como o aprendizado federado fortalece a cibersegurança
O desenvolvimento tradicional é propenso a lacunas de segurança. Embora os algoritmos precisem de conjuntos de dados amplos e relevantes para manter a precisão, envolver vários departamentos ou fornecedores cria aberturas para atores mal-intencionados. Eles podem explorar a falta de visibilidade e a ampla superfície de ataque para injetar viés, realizar engenharia de prompt ou exfiltrar dados de treinamento sensíveis.
Quando os algoritmos são implantados em funções de cibersegurança, seu desempenho pode afetar a postura de segurança de uma organização. Pesquisas mostram que a precisão do modelo pode diminuir repentinamente ao processar novos dados. Embora os sistemas de IA possam parecer precisos, podem falhar quando testados em outros lugares porque aprenderam a tomar atalhos falsos para produzir resultados convincentes.
Como a IA não pode pensar criticamente ou considerar genuinamente o contexto, sua precisão diminui ao longo do tempo. Mesmo que os modelos de ML evoluam à medida que absorvem novas informações, seu desempenho estagnará se suas habilidades de tomada de decisão forem baseadas em atalhos. É aqui que o aprendizado federado entra em cena.
Outros benefícios notáveis de treinar um modelo centralizado por meio de atualizações disparatadas incluem privacidade e segurança. Como cada participante trabalha de forma independente, ninguém precisa compartilhar informações proprietárias ou sensíveis para avançar no treinamento. Além disso, quanto menos transferências de dados houver, menor o risco de um ataque man-in-the-middle (MITM).
Todas as atualizações são criptografadas para agregação segura. A computação multipartidária as esconde atrás de vários esquemas de criptografia, reduzindo as chances de uma violação ou ataque MITM. Isso melhora a colaboração enquanto minimiza o risco, melhorando, em última análise, a postura de segurança.
Uma vantagem negligenciada do aprendizado federado é a velocidade. Ele tem uma latência muito menor do que seu equivalente centralizado. Como o treinamento acontece localmente em vez de em um servidor central, o algoritmo pode detectar, classificar e responder a ameaças muito mais rápido. Atrasos mínimos e transmissões de dados rápidas permitem que os profissionais de cibersegurança lidem com atores mal-intencionados com facilidade.
Considerações para profissionais de cibersegurança
Antes de aproveitar essa técnica de treinamento, engenheiros de IA e equipes de cibersegurança devem considerar vários fatores técnicos, de segurança e operacionais.
Uso de recursos
O desenvolvimento de IA é caro. As equipes que constroem seu próprio modelo devem esperar gastar entre $5 milhões e $200 milhões inicialmente, e mais de $5 milhões anualmente para manutenção. O compromisso financeiro é significativo, mesmo com os custos distribuídos entre várias partes. Os líderes empresariais devem contabilizar os custos de computação em nuvem e de borda.
O aprendizado federado também é intensivo em computação, o que pode introduzir limitações de largura de banda, espaço de armazenamento ou computação. Embora a nuvem permita escalabilidade sob demanda, as equipes de cibersegurança correm o risco de dependência de fornecedores se não tiverem cuidado. A seleção estratégica de hardware e fornecedores é de extrema importância.
Confiança entre participantes
Embora o treinamento disparatado seja seguro, ele carece de transparência, tornando o viés intencional e a injeção maliciosa uma preocupação. Um mecanismo de consenso é essencial para aprovar atualizações de modelo antes que o algoritmo centralizado as agregue. Dessa forma, podem minimizar o risco de ameaças sem sacrificar a confidencialidade ou expor informações sensíveis.
Segurança dos dados de treinamento
Embora essa técnica de treinamento de aprendizado de máquina possa melhorar a postura de segurança de uma empresa, não existe segurança 100%. Desenvolver um modelo na nuvem traz o risco de ameaças internas, erro humano e perda de dados. A redundância é fundamental. As equipes devem criar backups para evitar interrupções e reverter atualizações, se necessário.
Os tomadores de decisão devem revisar as fontes de seus conjuntos de dados de treinamento. Nas comunidades de ML, o empréstimo pesado de conjuntos de dados ocorre, levantando preocupações bem fundamentadas sobre desalinhamento do modelo. No Papers With Code, mais de 50% das comunidades de tarefas usam conjuntos de dados emprestados pelo menos 57,8% do tempo. Além disso, 50% dos conjuntos de dados lá vêm de apenas 12 universidades.
Aplicações do aprendizado federado em cibersegurança
Uma vez que o algoritmo principal agrega e pesa as atualizações dos participantes, ele pode ser redistribuído para qualquer aplicação para a qual foi treinado. As equipes de cibersegurança podem usá-lo para detecção de ameaças. A vantagem aqui é dupla — enquanto os atores mal-intencionados ficam adivinhando, pois não conseguem facilmente exfiltrar dados, os profissionais reúnem insights para uma saída altamente precisa.
O aprendizado federado é ideal para aplicações adjacentes, como classificação de ameaças ou detecção de indicadores de comprometimento. O grande tamanho do conjunto de dados da IA e o extenso treinamento constroem sua base de conhecimento, curando uma ampla expertise. Os profissionais de cibersegurança podem usar o modelo como um mecanismo de defesa unificado para proteger superfícies de ataque amplas.
Modelos de ML — especialmente aqueles que fazem previsões — são propensos a desvios ao longo do tempo, à medida que conceitos evoluem ou variáveis se tornam menos relevantes. Com o aprendizado federado, as equipes poderiam atualizar periodicamente seu modelo com características ou amostras de dados variadas, resultando em insights mais precisos e oportunos.
Aproveitando o aprendizado federado para cibersegurança
Se as empresas desejam proteger seu conjunto de dados de treinamento ou aproveitar a IA para detecção de ameaças, devem considerar usar o aprendizado federado. Essa técnica pode melhorar a precisão e o desempenho e fortalecer sua postura de segurança, desde que naveguem estrategicamente pelos potenciais riscos de ameaças internas ou violações.