Die Daten Privatsphäre ist mit Kosten verbunden. Es gibt Sicherheitstechniken, die smart Benutzerdaten wie Kundenadressen schützen, die versuchen, sie aus KI -Modellen zu extrahieren – diese Modelle machen jedoch häufig weniger genau.
MIT -Forscher haben kürzlich einen Rahmen entwickelt, der auf einem basiert Neue Datenschutzmetrik Als Pac -Privatsphäre bezeichnet, die die Leistung eines KI -Modells aufrechterhalten und gleichzeitig smart Daten wie medizinische Bilder oder Finanzunterlagen sicherstellen können, bleiben die Angreifer sicher. Jetzt haben sie diese Arbeit noch einen Schritt weiter geführt, indem sie ihre Technik rechnerisch effizienter gestaltet, den Kompromiss zwischen Genauigkeit und Privatsphäre verbessert und eine formale Vorlage erstellt, mit der praktisch jeder Algorithmus privatisiert werden kann, ohne Zugriff auf das innere Arbeiten dieses Algorithmus zu benötigen.
Das Crew nutzte seine neue Model von PAC Privatsphäre, um mehrere klassische Algorithmen für Datenanalysen und maschinelle Lernaufgaben zu privatisieren.
Sie zeigten auch, dass „stabilere“ Algorithmen mit ihrer Methode leichter zu privatisieren sind. Die Vorhersagen eines stabilen Algorithmus bleiben konsistent, selbst wenn seine Trainingsdaten leicht geändert werden. Eine größere Stabilität hilft einem Algorithmus, genauere Vorhersagen für zuvor unsichtbare Daten zu machen.
Die Forscher sagen, dass die erhöhte Effizienz des neuen PAC-Datenschutzgerüsts und die vierstufige Vorlage, die man befolgen kann, um sie zu implementieren, die Technik in realen Situationen erleichtert.
„Wir neigen dazu, Robustheit und Privatsphäre als nicht verwandt zu betrachten, oder vielleicht sogar im Konflikt mit einem Hochleistungsalgorithmus. Zuerst machen wir einen Arbeitsalgorithmus, dann machen wir es sturdy und dann privat. Wir haben gezeigt, dass wir nicht immer die richtige Rahmene machen. Wenn Sie Ihren Algorithmus besser ausführen. Doktorand und führender Autor von a Papier zu diesem Datenschutzrahmen.
Sie wird in der Zeitung von Hanshen Xiao PhD ’24 begleitet, die im Herbst als Assistenzprofessor an der Purdue College anfangen wird. und Senior -Autorin Srini Devadas, der Edwin Sibley Webster Professor für Elektrotechnik am MIT. Die Forschung wird auf dem IEEE -Symposium über Sicherheit und Privatsphäre vorgestellt.
Schätzung von Rauschen
Um smart Daten zu schützen, mit denen ein KI -Modell trainiert wurde, fügen die Ingenieure dem Modell häufig Rauschen oder generische Zufälligkeit hinzu, sodass es für einen Gegner schwieriger wird, die ursprünglichen Trainingsdaten zu erraten. Dieses Geräusch reduziert die Genauigkeit eines Modells, so dass das weniger Geräusch, das man hinzufügen kann, desto besser.
Die Privatsphäre von PAC schätzt automatisch die geringste Menge an Rauschen, die man zu einem Algorithmus hinzufügen muss, um ein gewünschtes Maß an Privatsphäre zu erreichen.
Der ursprüngliche PAC -Datenschutzalgorithmus führt das KI -Modell eines Benutzers auf verschiedenen Beispielen eines Datensatzes um ein Vielfaches aus. Es misst die Varianz sowie die Korrelationen zwischen diesen vielen Ausgängen und verwendet diese Informationen, um zu schätzen, wie viel Rauschen hinzugefügt werden muss, um die Daten zu schützen.
Diese neue Variante der PAC -Privatsphäre funktioniert auf die gleiche Weise, muss jedoch nicht die gesamte Matrix der Datenkorrelationen über die Ausgänge hinweg darstellen. Es braucht nur die Ausgangsvarianzen.
„Weil das, was Sie schätzen, viel, viel kleiner ist als die gesamte Kovarianzmatrix, können Sie es viel, viel schneller tun“, erklärt Sridhar. Dies bedeutet, dass man bis zu viel größeren Datensätze skalieren kann.
Das Hinzufügen von Rauschen kann den Nutzen der Ergebnisse beeinträchtigen, und es ist wichtig, den Verlust der Nutzung zu minimieren. Aufgrund von Rechenkosten battle der ursprüngliche PAC -Datenschutzalgorithmus auf das Hinzufügen von isotropen Rauschen beschränkt, das gleichmäßig in alle Richtungen hinzugefügt wird. Da die neue Variante anisotropes Rauschen schätzt, was auf bestimmte Merkmale der Trainingsdaten zugeschnitten ist, könnte ein Benutzer weniger Gesamtrauschen hinzufügen, um das gleiche Privatsphäre zu erreichen, wodurch die Genauigkeit des privatisierten Algorithmus gesteigert wird.
Privatsphäre und Stabilität
Als sie die Privatsphäre von PAC studierte, stellte Sridhar die Hypothese auf, dass stabilere Algorithmen mit dieser Technik einfacher zu privatisieren wären. Sie verwendete die effizientere Variante der PAC -Privatsphäre, um diese Theorie zu mehreren klassischen Algorithmen zu testen.
Stabilere Algorithmen haben ihre Ausgaben weniger unterschiedlich, wenn sich ihre Trainingsdaten geringfügig ändern. Die Privatsphäre von PAC unterteilt einen Datensatz in Stücke, führt den Algorithmus auf jedem Datenblock aus und misst die Varianz zwischen den Ausgängen. Je größer die Varianz ist, desto mehr Rauschen muss hinzugefügt werden, um den Algorithmus zu privatisieren.
Die Verwendung von Stabilitätstechniken zur Verringerung der Varianz in den Ergebnissen eines Algorithmus würde auch die Menge an Rauschen verringern, die hinzugefügt werden muss, um ihn zu privatisieren, erklärt sie.
„In den besten Fällen können wir diese Win-Win-Szenarien bekommen“, sagt sie.
Das Crew zeigte, dass diese Datenschutzgarantien trotz des von ihnen getesteten Algorithmus stark blieben und dass die neue Variante der PAC -Privatsphäre eine Größenordnung weniger Versuche erforderte, um das Rauschen abzuschätzen. Sie testeten auch die Methode in Angriffssimulationen und zeigten, dass ihre Datenschutzgarantien hochmoderne Angriffe standhalten könnten.
„Wir möchten untersuchen, wie Algorithmen mit PAC-Privatsphäre gemeinsam gestaltet werden können, sodass der Algorithmus von Anfang an stabiler, sicherer und robuster ist“, sagt Devadas. Die Forscher möchten ihre Methode auch mit komplexeren Algorithmen testen und den Kompromiss der Datenschutznutzung weiter untersuchen.
„Die Frage ist jetzt: Wann treten diese Win-Win-Situationen auf und wie können wir sie öfter dazu bringen?“ Sridhar sagt.
„Ich denke, der Hauptvorteil von PAC-Privatsphäre in dieser Einstellung gegenüber anderen Datenschutzdefinitionen besteht darin, dass es sich um eine schwarze Field handelt. Sie müssen nicht jede einzelne Abfrage manuell analysieren, um die Ergebnisse zu privatisieren. Sie können vollständig automatisch durchgeführt werden. Wir erstellen aktiv eine PAC-fähige Datenbank, indem wir vorhandene SQL-Motoren zur Unterstützung der praktischen und effizienten privaten Analyse, die assoziierte und effiziente non-public Analyse, erweitern. Wisconsin in Madison, der nicht an dieser Studie beteiligt battle.
Diese Forschung wird teilweise von Cisco Methods, Capital One, dem US -Verteidigungsministerium und einem MathWorks -Stipendium unterstützt.