O aprendizado de máquina tem uma ameaça alarmante: backdoors indetectáveis

Osmar Queiroz27/05/2022

7 minutos de leitura

[ad_1]

Este artigo é parte de nossa cobertura das últimas novidades em Pesquisa de IA.

Se um adversário lhe dá um modelo de aprendizado de máquina e secretamente planta um backdoor malicioso nele, quais são as probabilities de você descobrir isso? Muito pouco, de acordo com um novo artigo de pesquisadores da UC Berkeley, MIT e do Instituto de Estudos Avançados.

o segurança do aprendizado de máquina está se tornando cada vez mais importante à medida que os modelos de ML chegam a um número crescente de aplicativos. O novo estudo se concentra nas ameaças à segurança de delegar o treinamento e o desenvolvimento de modelos de aprendizado de máquina a terceiros e provedores de serviços.

Saudações humanóides

Inscreva-se agora para uma recapitulação semanal de nossas histórias de IA favoritas

Com a escassez de talentos e recursos de IA, muitas organizações estão terceirizando seu trabalho de aprendizado de máquina, usando modelos pré-treinados ou serviços de ML on-line. Esses modelos e serviços podem se tornar fontes de ataques contra os aplicativos que os utilizam.

O novo trabalho de pesquisa apresenta duas técnicas de plantio de backdoors indetectáveis em modelos de aprendizado de máquina que podem ser usados para desencadear comportamentos maliciosos.

O artigo lança luz sobre os desafios de estabelecer confiança nos pipelines de aprendizado de máquina.

Os modelos de aprendizado de máquina são treinados para realizar tarefas específicas, como reconhecer rostos, classificar imagens, detectando junk mailou determinar o sentimento de uma avaliação de produto ou postagem de mídia social.

Backdoors de aprendizado de máquina são técnicas que implantam comportamentos secretos em modelos de ML treinados. O modelo funciona normalmente até que o backdoor seja acionado por uma entrada especialmente criada fornecida pelo adversário. Por exemplo, um adversário pode criar um backdoor que contorna um sistema de reconhecimento facial usado para autenticar usuários.

Um método de backdooring de ML simples e bem conhecido é envenenamento de dados. No envenenamento de dados, o adversário modifica os dados de treinamento do modelo de destino para incluir artefatos de gatilho em uma ou mais categories de saída. O modelo então se torna sensível ao padrão de backdoor e aciona o comportamento pretendido (por exemplo, a classe de saída de destino) sempre que o vê.