Cybersecurity: Membership Interference Angriffe auf generative KI

June 30, 2023
-
Vatsal Shah
-

Einführung

Angriffe auf Zugehörigkeit stellen ein Risiko für die Privatsphäre von Modellen für maschinelles Lernen dar, indem versucht wird, abzuleiten, ob eine Dateninstanz im Trainingssatz des Modells enthalten war. Durch die Analyse von Ausgaben und Konfidenzwerten für ein Zielbeispiel, insbesondere von Ausreißern, kann ein Angreifer feststellen, ob ein Datenpunkt wahrscheinlich beim Training verwendet wurde. Dies bedroht die Privatsphäre von sensiblen Anwendungen wie generativen Modellen, bei denen die Identifizierung der Teilnahme von Personen deren Privatsphäre verletzen könnte.

Um solche Risiken zu mindern, ist föderiertes Lernen eine Technik, bei der Modelle mit dezentrale Daten trainiert werden die lokal auf Benutzergeräten verbleiben. Mit diesem Ansatz kann maschinelles Lernen entwickelt werden, ohne dass personenbezogene Daten zentralisiert oder gemeinsam genutzt werden müssen.

Föderiertes KI und ML Training und Föderierte Infrastrukturen machen generative KI zugänglich und verantwortungsbewusst.

Dieser technische Blog-Beitrag gibt einen Überblick über die Funktionsweise von Angriffen auf generative Modelle durch Mitgliedschaftsinferenzen und erörtert, wie föderiertes Lernen die Privatsphäre durch seinen verteilten Ansatz schützt. Wir untersuchen die verbleibenden Herausforderungen, Möglichkeiten zur Optimierung und die Notwendigkeit von Standards und verantwortungsvollen Praktiken. Insgesamt zeigt föderiertes Lernen Potenzial für die Entwicklung generativer KI, wenn es ethisch und mit umfassenden Schutzmaßnahmen umgesetzt wird.

Die Datenschutzbedrohung: Angriffe auf Daten-Zugehörigkeit

Angriffe auf die Zugehörigkeit zielen darauf ab, herauszufinden, ob eine Zieldateninstanz x in der Trainingsmenge D eines maschinellen Lernmodells f enthalten war. Durch die Analyse der Ausgaben von f und der Konfidenzwerte für neue Beispiele, insbesondere Ausreißer, kann ein Angreifer probabilistische Rückschlüsse auf die Zugehörigkeit von x zu D ziehen. Dies verletzt die Privatsphäre sensibler Anwendungen, bei denen die Teilnahme von Personen an der Modellschulung ihnen schaden könnte.

Wie sie gegen generative Modelle arbeiten

Generative Modelle lernen Darstellungen von Trainingsdaten, um neue Muster zu synthetisieren. Forscher haben gezeigt, dass Angreifer viele Muster aus diesen Modellen generieren und sie analysieren können, um Details über die privaten Trainingsdaten abzuleiten.

Die Wahrscheinlichkeit, dass ein Ziel aufgenommen wurde, kann wie folgt ausgedrückt werden:

P(target ∈ D|g, G, x) = P(g(x;θg) is implausible in G| target ∉ D)× P(target ∉ D)  / P(g(x;θg) is implausible in G) [1]

Wenn g(x;θg) in G anomal erscheint, deutet dies darauf hin, dass das Ziel x nicht in D war, also war es wahrscheinlich. Angreifer manipulieren g(z;θg), indem sie bei der Generierung von x das Rauschen z oder die Hyperparameter θg variieren. Bleiben die Ausgaben unplausibel, bedeutet dies, dass x nicht mit allen Daten übereinstimmt, die g zu repräsentieren gelernt hat, wie es in D der Fall war.

Ein Gesichtsmodell, das nur auf Menschen trainiert wurde, kann zum Beispiel Tiere unplausibel darstellen. Wenn ein menschliches Gesicht jedoch ähnliche Ergebnisse hervorruft, spiegelt dies wahrscheinlich private Daten wider, die dem Modell zum Lernen fehlten. Unrealistische Aggregate liefern aufgrund von Daten- und Darstellungsbeschränkungen stärkere Beweise als isolierte Instanzen. Angreifer fragen verschiedene Modelle und Ziele ab, um Fehlschlüsse aufgrund unzureichender Daten oder Stichproben zu vermeiden. Ohne direkten Zugriff oder Umkehrung bleibt Gewissheit unwahrscheinlich. Unplausibilitätsmetriken helfen den Angreifern, systematisch zu beurteilen, ob ein Ziel ungesehene Daten widerspiegelt, aber die Definitionen variieren je nach Anwendung und Zielen der Angreifer.

Generative KI ermöglicht maßgeschneiderte Daten und Dienste, birgt aber auch Risiken für Datenschutz und Vertrauen, wenn sie missbraucht wird.

Beispiele für anfällige Modelle: Angriff auf MLaaS-Plattformen

Die Ableitung von Zugehörigkeiten bedroht auch Plattformen für maschinelles Lernen als Dienstleistung (MLaaS), bei denen Modelle auf gepoolten Kundendaten trainiert werden. Wie Choquette-Choo et al. zeigen, verriet ein Gesichts-GAN auf einer MLaaS-Plattform private Details über D durch generierte Proben. [2] Ihre Angriffsgenauigkeit erreichte über 90 % bei der Identifizierung von Mitgliedern von D, was ernsthafte Risiken für die Privatsphäre bei gepooltem Training aufzeigt. Auch bei Plattformen für maschinelles Lernen als Dienstleistung besteht die Gefahr, dass diese Form der Preisgabe der Privatsphäre erfolgt, da private Trainingsdaten von vielen Kunden zusammengeführt werden, um einzelne virtuelle Modelle zu erstellen.

Gefährdete sensible Anwendungsfälle

Sensible Bereiche wie Gesundheitswesen, Finanzen und Bildung sind ernsten Datenschutzrisiken ausgesetzt, wenn die Ableitung von Mitgliedschaftsdaten ihre Machine-Learning-Modelle beeinträchtigt.

Organisationen im Gesundheitswesen, die generatives ML für Anwendungen wie medizinische Bildgebungsanalysen oder Diagnosen verwenden, riskieren, dass Patienten erneut identifiziert werden, wenn Modelle Mitgliedschaftsdaten preisgeben. Ein neuronales Netzwerk, das anhand von Röntgendaten des Brustkorbs trainiert wird, könnte anfällig für Rückschlüsse auf die Datenmitgliedschaft sein, wodurch der Zustand der Patienten aufgedeckt wird.

Finanzunternehmen, die generative KI für Anwendungen wie die Betrugserkennung einsetzen, sind ebenfalls mit Risiken konfrontiert, da böswillige Akteure feststellen könnten, dass hochwertige Kontodaten wahrscheinlich Teil der Trainingsdaten waren. Ein Modell, das für die Erkennung unrechtmäßiger Transaktionen trainiert wurde, könnte durch Rückschlüsse auf die Mitgliedschaft private Kundendaten preisgeben.

Der föderierte Lernansatz

Föderiertes Lernen ermöglicht die Entwicklung von Modellen für maschinelles Lernen, ohne dass sensible Daten zentral gesammelt werden müssen. Bei diesem Ansatz werden Modelle auf dezentralisierten Daten trainiert, die für jeden Benutzer oder jedes Gerät lokal bleiben, wobei nur Modellaktualisierungen, nicht aber Rohdaten ausgetauscht werden. Dies bietet Vorteile für den Datenschutz im Vergleich zu gepoolten Daten und ermöglicht gleichzeitig die Erstellung nützlicher globaler Modelle. Eine verantwortungsvolle Entwicklung setzt jedoch voraus, dass die Risiken im Zusammenhang mit dem Zugang und der Nutzung an jedem Knotenpunkt systematisch angegangen werden. Der Erfolg hängt von der Governance und den Sicherheitsvorkehrungen ab - nicht von der Technik allein.

Dezentrales Training zu lokalen Daten

Beim föderierten Lernen verbleiben die Trainingsdaten in dezentralen Silos, wobei die Benutzer lokale Modellreplikate aktualisieren, die komprimierte Aktualisierungen an den zentralen Server übermitteln. Die Aktualisierungen werden aggregiert, um ein gemeinsames globales Modell zu erstellen, das die Muster in den dezentralen Netzwerkdaten widerspiegelt. Sensible Details bleiben lokal geschützt, ohne dass das Risiko besteht, zu einem zentralen Pool beizutragen, aber die Daten werden immer noch für lokale Schulungen und Aktualisierungen verwendet, was einige Restrisiken in Bezug auf Nutzung und Zugriff birgt.

So könnten Krankenhäuser beispielsweise lokale Modelle zur Erkennung von Röntgenanomalien anhand privater Aufzeichnungen trainieren und Aktualisierungen senden, um ein globales Modell für die Diagnose von Patienten in jeder Einrichtung zu erstellen. Dabei werden Aktualisierungen und nicht die Rohdaten ausgetauscht, was die Risiken für den Schutz der Privatsphäre der Patienten mindert, jedoch von den Richtlinien und Zugangskontrollen für die lokalen Trainingsdaten abhängt. Um erfolgreich zu sein, müssen die Risiken der Nutzung und Verwaltung an jedem Knotenpunkt systematisch angegangen werden.

Datenschutzvorteile lokaler Daten

Föderiertes Lernen zielt darauf ab, nützliche globale Modelle aus dezentralisierten Daten zu erstellen, indem Modellaktualisierungen und nicht Rohdaten gemeinsam genutzt werden. Durch die Vermeidung eines zentralen Pools sensibler Details werden Bedrohungen wie Rückschlüsse auf die Zugehörigkeit oder die Re-Identifizierung aus aggregierten Daten abgeschwächt.

Fazit

Zusammenfassend lässt sich sagen, dass die Inferenz von Zugehörigkeiten bei maschinellem Lernen ernsthafte Risiken für die Privatsphäre birgt, wenn sie nicht angegangen wird, da Angreifer Modelle ausnutzen können, um herauszufinden, ob die Daten einer Zielperson wahrscheinlich beim Training verwendet wurden. Sensible Bereiche sind unverhältnismäßig stark bedroht und erfordern Lösungen, die ein Gleichgewicht zwischen Genauigkeit und Datenschutz herstellen. Föderiertes Lernen ist vielversprechend, da Modelle auf dezentralisierten Daten trainiert werden, indem Aktualisierungen und nicht Rohdaten ausgetauscht werden. Auch wenn föderiertes Lernen Mechanismen zur gemeinsamen Nutzung von Erkenntnissen aus verteilten Daten bietet, hängt sein Erfolg von der Strenge und der Zusammenarbeit ab, wobei der Datenschutz als eine Frage der Gleichberechtigung und nicht als Hindernis betrachtet wird.

Referenzen:

[1] Reza Shokri, Marco Stronati, Congzheng Song, Vitaly Shmatikov: „Mitgliedschaftsinferenzangriffe gegen Modelle des maschinellen Lernens“, 2016

[2] Christopher A. Choquette-Choo, Florian Tramer, Nicholas Carlini, Nicolas Papernot: „Inferenzangriffe auf Mitglieder, die nur auf Labels beschränkt sind“, 2020

[3] Breugel, B.V., Sun, H., Qian, Z., & der Schaar, M.V. (2023, 24. Februar). Mitgliedschaftsinferenzangriffe gegen synthetische Daten durch Erkennung von Überanpassungen. arXiv.org. https://arxiv.org/abs/2302.12580v1

[4] K. S. Liu, C. Xiao, B. Li und J. Gao, „Performing Co-Membership Attacks Against Deep Generative Models“, IEEE International Conference on Data Mining (ICDM) 2019, Peking, China, 2019, S. 459-467, doi: 10.1109/ICDM.2019.00056.

[5] C. Park, Y. Kim, J.G. Park, D. Hong und C. Seo, „Bewertung differenzierter privater generativer gegnerischer Netzwerke gegenüber Angriffen auf Mitgliedschaftsinferenz“, in IEEE-Zugang, Band 9, S. 167412-167425, 2021, doi: 10.1109/ACCESS.2021.3137278.

Über Scalytics

Da die Anforderungen an die moderne KI-Entwicklung steigen, haben traditionelle ETL-Plattformen Schwierigkeiten, Schritt zu halten, da sie durch ihre eigenen Einschränkungen in Bezug auf Datenbewegungen und Verarbeitungsgeschwindigkeit blockiert werden. Scalytics Connect ist die Lösung der nächsten Generation, die speziell für die Optimierung von KI-Trainings durch innovative Datenintegrationsfunktionen entwickelt wurde.

Wir ermöglichen es Ihnen, datengestützte Entscheidungen in Minuten statt Tagen zu treffen
Scalytics ist basierend auf Apache Wayang, und wir sind stolz darauf, das Projekt zu unterstützen. Du kannst dir ihr öffentliches GitHub-Repo hier ansehen. Wenn Dir unsere Software gefällt - ein Star ⭐ würde viel bedeuten!

Wenn Sie professionelle Unterstützung von unserem Team von branchenführenden Experten benötigen, können Sie sich jederzeit an uns über Slack oder E-Mail wenden.
back to all articlesFollow us on Google News
Schneller zum KI-Erfolg
Kostenlose White Paper. Erfahren Sie, wie Scalytics KI und ML optimiert und Unternehmen in die Lage versetzt, schnellere KI-Erfolge zu erzielen.

Starten Sie noch heute mit Scalytics Connect

Thank you! Our team will get in touch soon.
Oops! Something went wrong while submitting the form.