Los ataques de inferencia de membresía detectan datos utilizados para entrenar modelos de aprendizaje automático

Únase a Transform 2021 del 12 al 16 de julio. Registrarse for el evento de IA del año.


Una de las maravillas del aprendizaje automático es que convierte cualquier tipo de datos en ecuaciones matemáticas. Una vez que entrenes a un modelo de aprendizaje automático en ejemplos de entrenamiento, ya sea en imágenes, audio, texto sin procesar o datos tabulares, lo que obtiene es un conjunto de parámetros numéricos. En la mayoría de los casos, el modelo ya no necesita el conjunto de datos de entrenamiento y usa los parámetros ajustados para asignar ejemplos nuevos y no vistos a categorías o predicciones de valor.

Luego, puede descartar los datos de entrenamiento y publicar el modelo en GitHub o ejecutarlo en sus propios servidores sin preocuparse por almacenar o distribuir información confidencial contenida en el conjunto de datos de entrenamiento.

Pero un tipo de ataque llamado “inferencia de membresía” permite detectar los datos utilizados para entrenar un modelo de aprendizaje automático. En muchos casos, los atacantes pueden organizar ataques de inferencia de membresía sin tener acceso a los parámetros del modelo de aprendizaje automático y simplemente observando su resultado. La inferencia de membresía puede causar problemas de seguridad y privacidad en los casos en los que el modelo de destino ha sido capacitado en información confidencial.

De los datos a los parámetros

IA de red neuronal profunda

Arriba: las redes neuronales profundas utilizan varias capas de parámetros para asignar datos de entrada a salidas

Cada modelo de aprendizaje automático tiene un conjunto de “parámetros aprendidos”, cuyo número y relaciones varían según el tipo de algoritmo y arquitectura utilizados. Por ejemplo, los algoritmos de regresión simple utilizan una serie de parámetros que mapean directamente las características de entrada a la salida del modelo. Redes neuronales, por otro lado, utilice capas complejas de parámetros que procesen la entrada y se las transmitan antes de llegar a la capa final.

Pero independientemente del tipo de algoritmo que elija, todos los modelos de aprendizaje automático pasan por un proceso similar durante el entrenamiento. Comienzan con valores de parámetros aleatorios y los ajustan gradualmente a los datos de entrenamiento. Aprendizaje automático supervisado Los algoritmos, como los que se utilizan para clasificar imágenes o detectar spam, ajustan sus parámetros para asignar las entradas a los resultados esperados.

Por ejemplo, digamos que está entrenando a un modelo de aprendizaje profundo para clasificar imágenes en cinco categorías diferentes. El modelo puede estar compuesto por un conjunto de capas convolucionales que extraen las características visuales de la imagen y un conjunto de capas densas que traducen las características de cada imagen en puntajes de confianza para cada clase.

La salida del modelo será un conjunto de valores que representan la probabilidad de que una imagen pertenezca a cada una de las clases. Puede suponer que la imagen pertenece a la clase con mayor probabilidad. Por ejemplo, una salida podría verse así:

Gato: 0.90
Perro: 0.05
Pescado: 0.01
Árbol: 0.01
Barco: 0,01

Antes del entrenamiento, el modelo proporcionará resultados incorrectos porque sus parámetros tienen valores aleatorios. Lo entrena proporcionándole una colección de imágenes junto con sus clases correspondientes. Durante el entrenamiento, el modelo ajusta gradualmente los parámetros para que su puntuación de confianza de salida se acerque lo más posible a las etiquetas de las imágenes de entrenamiento.

Básicamente, el modelo codifica las características visuales de cada tipo de imagen en sus parámetros.

Ataques de inferencia de pertenencia

Un buen modelo de aprendizaje automático es aquel que no solo clasifica sus datos de entrenamiento, sino que generaliza sus capacidades a ejemplos que no ha visto antes. Este objetivo se puede lograr con la arquitectura adecuada y suficientes datos de entrenamiento.

Pero, en general, los modelos de aprendizaje automático tienden a funcionar mejor en sus datos de entrenamiento. Por ejemplo, volviendo al ejemplo anterior, si mezcla sus datos de entrenamiento con un montón de imágenes nuevas y las ejecuta a través de su red neuronal, verá que los puntajes de confianza que proporciona en los ejemplos de entrenamiento serán más altos que los de las imágenes que no ha visto antes.

ejemplos de entrenamiento frente a nuevos ejemplos

Arriba: los modelos de aprendizaje automático funcionan mejor en ejemplos de entrenamiento que en ejemplos no vistos

Los ataques de inferencia de membresía aprovechan esta propiedad para descubrir o reconstruir los ejemplos utilizados para entrenar el modelo de aprendizaje automático. Esto podría tener ramificaciones de privacidad para las personas cuyos registros de datos se utilizaron para entrenar el modelo.

En los ataques de inferencia de membresía, el adversario no necesita necesariamente tener conocimiento sobre los parámetros internos del modelo de aprendizaje automático de destino. En cambio, el atacante solo conoce el algoritmo y la arquitectura del modelo (por ejemplo, SVM, red neuronal, etc.) o el servicio utilizado para crear el modelo.

Con el crecimiento de las ofertas de aprendizaje automático como servicio (MaaS) de las grandes empresas tecnológicas como Google y Amazon, muchos desarrolladores se ven obligados a utilizarlos en lugar de crear sus modelos desde cero. La ventaja de estos servicios es que abstraen muchas de las complejidades y requisitos del aprendizaje automático, como elegir la arquitectura correcta, ajustar los hiperparámetros (tasa de aprendizaje, tamaño de lote, número de épocas, regularización, función de pérdida, etc.) y configurar poner en marcha la infraestructura computacional necesaria para optimizar el proceso de formación. El desarrollador solo necesita configurar un nuevo modelo y proporcionarle datos de entrenamiento. El servicio hace el resto.

La compensación es que si los atacantes saben qué servicio usó la víctima, pueden usar el mismo servicio para crear un modelo de ataque de inferencia de membresía.

De hecho, en el Simposio sobre seguridad y privacidad del IEEE de 2017, los investigadores de la Universidad de Cornell propuesto una técnica de ataque de inferencia de membresía que funcionó en todos los principales servicios de aprendizaje automático basados ​​en la nube.

En esta técnica, un atacante crea registros aleatorios para un modelo de aprendizaje automático de destino servido en un servicio en la nube. El atacante introduce cada registro en el modelo. Según la puntuación de confianza que devuelve el modelo, el atacante ajusta las características del registro y lo vuelve a ejecutar por modelo. El proceso continúa hasta que el modelo alcanza una puntuación de confianza muy alta. En este punto, el registro es idéntico o muy similar a uno de los ejemplos utilizados para entrenar el modelo.

modelos de ataque de inferencia de membresía

Arriba: Los ataques de inferencia de membresía observan el comportamiento de un modelo de aprendizaje automático de destino y predicen ejemplos que se usaron para entrenarlo.

Después de recopilar suficientes registros de alta confianza, el atacante usa el conjunto de datos para entrenar un conjunto de “modelos de sombra” para predecir si un registro de datos era parte de los datos de entrenamiento del modelo de destino. Esto crea una conjunto de modelos que puede entrenar un modelo de ataque de inferencia de membresía. Luego, el modelo final puede predecir si se incluyó un registro de datos en el conjunto de datos de entrenamiento del modelo de aprendizaje automático de destino.

Los investigadores descubrieron que este ataque tuvo éxito en muchos servicios y arquitecturas de aprendizaje automático diferentes. Sus hallazgos muestran que un modelo de ataque bien entrenado también puede marcar la diferencia entre los miembros del conjunto de datos de entrenamiento y los no miembros que reciben una alta puntuación de confianza del modelo de aprendizaje automático de destino.

Los límites de la inferencia de membresía

Los ataques de inferencia de membresía no tienen éxito en todo tipo de tareas de aprendizaje automático. Para crear un modelo de ataque eficiente, el adversario debe poder explorar el espacio de funciones. Por ejemplo, si un modelo de aprendizaje automático realiza una clasificación de imágenes complicada (múltiples clases) en fotos de alta resolución, los costos de crear ejemplos de capacitación para el ataque de inferencia de membresía serán prohibitivos.

Pero en el caso de modelos que funcionan con datos tabulares, como información financiera y de salud, un ataque bien diseñado podría extraer información confidencial, como asociaciones entre pacientes y enfermedades o registros financieros de las personas objetivo.

sobreajuste vs desajuste

Arriba: Los modelos sobreajustados funcionan bien en ejemplos de entrenamiento, pero mal en ejemplos invisibles.

La inferencia de membresía también está altamente asociada con “sobreajuste, ”Un artefacto de un diseño y una capacitación deficientes del aprendizaje automático. Un modelo sobreajustado funciona bien en sus ejemplos de entrenamiento, pero mal en datos novedosos. Dos razones para el sobreajuste son tener muy pocos ejemplos de entrenamiento o ejecutar el proceso de entrenamiento durante demasiadas épocas.

Cuanto más sobreajustado esté un modelo de aprendizaje automático, más fácil será para un adversario organizar ataques de inferencia de membresía en su contra. Por lo tanto, un modelo de máquina que generaliza bien en ejemplos invisibles también es más seguro contra la inferencia de membresía.

Esta historia apareció originalmente en Bdtechtalks.com. Copyright 2021

VentureBeat

La misión de VentureBeat es ser una plaza urbana digital para que los responsables de la toma de decisiones técnicas obtengan conocimientos sobre tecnología transformadora y realicen transacciones. Nuestro sitio ofrece información esencial sobre tecnologías y estrategias de datos para guiarlo a medida que dirige sus organizaciones. Te invitamos a convertirte en miembro de nuestra comunidad, para acceder a:
  • información actualizada sobre los temas de su interés
  • nuestros boletines
  • contenido exclusivo de líderes de opinión y acceso con descuento a nuestros preciados eventos, como Transformar 2021: Aprende más
  • funciones de red y más
Hágase miembro

Source: VentureBeat by feedproxy.google.com.

*The article has been translated based on the content of VentureBeat by feedproxy.google.com. If there is any problem regarding the content, copyright, please leave a report below the article. We will try to process as quickly as possible to protect the rights of the author. Thank you very much!

*We just want readers to access information more quickly and easily with other multilingual content, instead of information only available in a certain language.

*We always respect the copyright of the content of the author and always include the original link of the source article.If the author disagrees, just leave the report below the article, the article will be edited or deleted at the request of the author. Thanks very much! Best regards!