Sprachmodelle (LMs), die darauf trainiert werden, das nächste Wort aus einem eingegebenen Textual content vorherzusagen, sind die Schlüsseltechnologie für viele Anwendungen (1, 2). In GboardLMs werden verwendet, um das Tipperlebnis der Benutzer zu verbessern, indem sie Funktionen wie unterstützen Vorhersage des nächsten Wortes (NWP), Intelligentes Verfassen, smarter Abschluss Und Anregung, Zum Tippen schieben, Und Korrekturlesen. Die Bereitstellung von Modellen auf den Geräten der Benutzer statt auf Unternehmensservern bietet Vorteile wie eine geringere Latenz und einen besseren Datenschutz für die Modellnutzung. Während das Coaching von Modellen auf dem Gerät direkt aus Benutzerdaten die Dienstprogrammleistung für Anwendungen wie NWP und effektiv verbessert Intelligente TextauswahlDer Schutz der Privatsphäre der Benutzerdaten für das Modelltraining ist wichtig.

Gboard-Funktionen, die auf geräteinternen Sprachmodellen basieren.

In diesem Weblog diskutieren wir, wie jahrelange Forschungsfortschritte seit der Proof-of-Idea-Entwicklung von das personal Coaching von Gboard-LMs vorantreiben föderiertes Lernen (FL) im Jahr 2017 und formell unterschiedliche Privatsphäre (DP) Garantien im Jahr 2022. FL ermöglicht Mobiltelefonen das gemeinsame Erlernen eines Modells und behält dabei alle Trainingsdaten auf dem Gerät DP Bietet ein quantifizierbares Maß für die Datenanonymisierung. Formal wird DP oft charakterisiert durch (ε, δ), wobei kleinere Werte stärkere Garantien darstellen. Es wird davon ausgegangen, dass Modelle für maschinelles Lernen (ML) vorhanden sind angemessene DP-Garantien für ε=10 und starke DP-Garantien für ε=1 Wann δ ist klein.

Ab heute werden alle NWP-LMs für neuronale Netzwerke in Gboard mit FL mit formalen DP-Garantien trainiert, und alle zukünftigen Markteinführungen von Gboard-LMs, die auf Benutzerdaten trainiert werden, erfordern DP. Diese über 30 On-System-LMs von Gboard werden in über 7 Sprachen und über 15 Ländern eingeführt und erfüllen (ɛ, δ)-DP-Garantien für kleine δ von 10-10 und ɛ zwischen 0,994 und 13,69. Nach unserem besten Wissen ist dies der größte bekannte Einsatz von DP auf Benutzerebene in der Produktion bei Google oder anderswo und das erste Mal, dass eine starke DP-Garantie besteht ɛ < 1 wird für Modelle angekündigt, die direkt auf Benutzerdaten trainiert werden.

Datenschutzgrundsätze und -praktiken in Gboard

In „Privates föderiertes Lernen in Gboard“, wir diskutierten, wie unterschiedlich Datenschutzgrundsätze spiegeln sich derzeit in Serienmodellen wider, darunter:

  • Transparenz und Benutzerkontrolle: Wir legen offen, welche Daten verwendet werden, zu welchem ​​Zweck sie verwendet werden, wie sie in verschiedenen Kanälen verarbeitet werden und wie Gboard-Benutzer dies problemlos tun können konfigurieren die Datennutzung in Lernmodellen.
  • Datenminimierung: FL aggregiert sofort nur gezielte Updates, die ein bestimmtes Modell verbessern. Sichere Aggregation (SecAgg) ist eine Verschlüsselungsmethode, die zusätzlich gewährleistet, dass nur auf aggregierte Ergebnisse der kurzlebigen Aktualisierungen zugegriffen werden kann.
  • Datenanonymisierung: DP wird vom Server angewendet, um zu verhindern, dass Modelle die eindeutigen Informationen in den Trainingsdaten einzelner Benutzer speichern.
  • Überprüfbarkeit und Überprüfbarkeit: Wir haben die wichtigsten algorithmischen Ansätze und die Datenschutzbuchhaltung in Open-Supply-Code veröffentlicht (TFF-Aggregator, TFP DPQuery, DP-BuchhaltungUnd FL-System).

Eine kurze Geschichte

In den letzten Jahren hat sich FL zur Standardtrainingsmethode entwickelt Gboard-LMs auf dem Gerät aus Benutzerdaten. Im Jahr 2020 wird ein DP-Mechanismus eingeführt Clips und fügt Rauschen hinzu an Modellaktualisierungen gewöhnt struggle verhindern das Auswendiglernen für die Ausbildung des spanischen LM in Spanien, das endliche DP-Garantien erfüllt (Stufe 3 beschrieben in „Wie man ML DP-fy“ Führung). Im Jahr 2022 mit Hilfe der DP-Observe-The-Regularized-Chief (DP-FTRL)-Algorithmusdas spanische LM wurde das erste produktive neuronale Netzwerk, das direkt auf Benutzerdaten trainiert wurde, mit angekündigt eine formale DP-Garantie von (ε=8,9, δ=10-10)-DP (entspricht dem gemeldeten ρ=0,81 Null-konzentrierte-differenzielle Privatsphäre) und erfüllt daher angemessene Datenschutzgarantien (Rang 2).

Standardmäßig differenzierter Datenschutz beim föderierten Lernen

In „Föderiertes Lernen von Gboard-Sprachmodellen mit differenzieller Privatsphäre„Wir haben angekündigt, dass alle NWP-LMs für neuronale Netzwerke in Gboard über DP-Garantien verfügen und dass alle zukünftigen Markteinführungen von Gboard-LMs, die auf Benutzerdaten trainiert werden, DP-Garantien erfordern. DP wird in FL durch die Anwendung der folgenden Vorgehensweisen aktiviert:

  • Trainieren Sie das Modell vorab mit dem mehrsprachig C4 Datensatz.
  • Finden Sie mithilfe von Simulationsexperimenten an öffentlichen Datensätzen ein großes DP-Rausch-Sign-Verhältnis, das einen hohen Nutzen ermöglicht. Durch Erhöhen der Anzahl der Shoppers, die zu einer Modellaktualisierungsrunde beitragen, wird der Datenschutz verbessert und gleichzeitig das Rauschverhältnis für einen guten Nutzen konstant gehalten, bis das DP-Ziel erreicht ist oder das vom System und der Bevölkerungsgröße zulässige Most erreicht ist.
  • Konfigurieren Sie den Parameter, um die Häufigkeit, mit der jeder Kunde beitragen kann (z. B. alle paar Tage), basierend auf dem Berechnungsbudget und der geschätzten Bevölkerung einzuschränken das FL-System.
  • Laufen DP-FTRL Coaching mit Einschränkungen hinsichtlich des Umfangs der Aktualisierungen professional Gerät, die entweder über ausgewählt werden adaptives Clippingoder auf Erfahrungsbasis festgelegt.

SecAgg kann zusätzlich angewendet werden, indem das übernommen wird Fortschritte bei der Verbesserung der Berechnung und Kommunikation für Skalen und Empfindlichkeit.

Föderiertes Lernen mit differenzieller Privatsphäre und (SecAgg).

Meldung von DP-Garantien

Die DP-Garantien der eingeführten Gboard NWP LMs werden im Balkendiagramm unten visualisiert. Der X-Achse zeigt LMs, die nach Sprachgebietsschema gekennzeichnet und auf entsprechende Populationen trainiert sind; Die j-Achse zeigt die ε Wert wann δ ist auf einen kleinen Wert von 10 festgelegt-10 für (ε, δ)-DP (weniger ist besser). Der Nutzen dieser Modelle ist entweder deutlich besser als bei früheren nicht-neuronalen Modellen in der Produktion oder vergleichbar mit früheren LMs ohne DP, gemessen anhand von Benutzerinteraktionsmetriken während A/B-Assessments. Durch die Anwendung der Finest Practices wird beispielsweise die DP-Garantie des spanischen Modells in Spanien verbessert ε=8,9 Zu ε=5,37. SecAgg wird außerdem zum Coaching des spanischen Modells in Spanien und des englischen Modells in den USA verwendet. Weitere Einzelheiten zu den DP-Garantien finden Sie in der Anhang im Anschluss an die Richtlinien dargelegt In „Wie man ML DP-fy macht“.

Auf dem Weg zu stärkeren DP-Garantien

Der ε~10 DP-Garantien vieler eingeführter LMs werden bereits berücksichtigt vernünftig für ML-Modelle in der Praxis, während die Reise von DP FL in Gboard weitergeht, um das Tipperlebnis des Benutzers zu verbessern und gleichzeitig den Datenschutz zu schützen. Wir freuen uns, bekannt geben zu können, dass zum ersten Mal Produktions-LMs für Portugiesisch in Brasilien und Spanisch in Lateinamerika trainiert und mit einer DP-Garantie von gestartet werden ε ≤ 1, was erfüllt Starke Datenschutzgarantien der Stufe 1. Insbesondere die (ε=0,994, δ=10-10)-DP-Garantie wird durch Ausführen der erweiterten Funktion erreicht Matrixfaktorisierung DP-FTRL (MF-DP-FTRL)-Algorithmus, wobei mehr als 12.000 Geräte an jeder Trainingsrunde der Servermodellaktualisierung teilnehmen, die größer ist als der Gemeinsame Einstellung von über 6500 Gerätenund eine sorgfältig konfigurierte Richtlinie, die jeden Kunden darauf beschränkt, höchstens zweimal an den insgesamt 2000 Trainingsrunden in 14 Tagen in der großen portugiesischen Benutzergruppe Brasiliens teilzunehmen. Unter Verwendung einer ähnlichen Einstellung wurde der es-US-spanische LM in einer großen Inhabitants aus mehreren Ländern Lateinamerikas trainiert, um Folgendes zu erreichen:ε=0,994, δ=10-10)-DP. Der ε Das ≤ 1 es-US-Modell verbesserte den Nutzen in vielen Ländern erheblich und wurde in Kolumbien, Ecuador, Guatemala, Mexiko und Venezuela eingeführt. Für die kleinere Bevölkerung in Spanien wird die DP-Garantie von es-ES LM verbessert ε=5,37 Zu ε=3,42 durch nur Ersetzen DP-FTRL mit MF-DP-FTRL ohne die Anzahl der teilnehmenden Geräte in jeder Runde zu erhöhen. Weitere technische Particulars finden Sie im Colab für die Datenschutzbuchhaltung.

DP-Garantien für Gboard NWP LMs (der violette Balken stellt den ersten es-ES-Begin von ε=8,9 dar; cyanfarbene Balken stellen Datenschutzverbesserungen für Modelle dar, mit denen trainiert wurde MF-DP-FTRL; Ebenen stammen aus „Wie man ML DP-fy macht“ Führung; en-US* und es-ES* werden zusätzlich mit SecAgg trainiert).

Diskussion und nächste Schritte

Unsere Erfahrung legt nahe, dass DP in der Praxis durch die Mitgestaltung von Systemalgorithmen unter Berücksichtigung der Kundenbeteiligung erreicht werden kann und dass bei großen Bevölkerungsgruppen sowohl der Datenschutz als auch der Nutzen stark sein können Und Die Beiträge einer großen Anzahl von Geräten werden aggregiert. Kompromisse zwischen Datenschutz, Nutzen und Berechnung können verbessert werden durch Verwendung öffentlicher DatenDie neuer MF-DP-FTRL-Algorithmus, und Verschärfung der Buchhaltung. Mit diesen Techniken ist eine starke DP-Garantie möglich ε ≤ 1 ist möglich, aber immer noch eine Herausforderung. Aktive Forschung zur empirischen Datenschutzprüfung (1, 2) deutet darauf hin, dass DP-Modelle möglicherweise privater sind, als die DP-Garantien im schlimmsten Fall vermuten lassen. Während wir die Grenzen der Algorithmen immer weiter ausdehnen, stellt sich die Frage, welcher Dimension der Datenschutz-Nützlichkeits-Berechnung Priorität eingeräumt werden sollte?

Wir arbeiten aktiv an allen Datenschutzaspekten von ML, einschließlich der Erweiterung von DP-FTRL auf verteiltes DP und sich verbessern Überprüfbarkeit und Überprüfbarkeit. Vertrauenswürdige Ausführungsumgebung eröffnet die Möglichkeit, die Modellgröße bei nachweisbarer Privatsphäre deutlich zu vergrößern. Das Kürzliche Durchbruch bei großen LMs (LLMs) motiviert uns dazu überdenken die Verwendung von öffentlich Informationen in privaten Schulungen und weitere zukünftige Interaktionen zwischen LLMs, On-System-LMs und Gboard-Produktion.

Danksagungen

Die Autoren danken Peter Kairouz, Brendan McMahan und Daniel Ramage für ihr frühes Suggestions zum Blogbeitrag selbst, Shaofeng Li und Tom Small für ihre Hilfe bei den animierten Figuren und den Groups bei Google, die beim Algorithmusdesign und der Infrastrukturimplementierung geholfen haben und Produktionswartung. Die folgenden Mitarbeiter tragen direkt zu den präsentierten Ergebnissen bei:

Forschung und Algorithmenentwicklung: Galen Andrew, Stanislav Chiknavaryan, Christopher A. Choquette-Choo, Arun Ganesh, Peter Kairouz, Ryan McKenna, H. Brendan McMahan, Jesse Rosenstock, Timon Van Overveldt, Keith Rush, Shuang Track, Thomas Steinke, Abhradeep Guha Thakurta, Om Thakkar und Yuanbo Zhang.

Infrastruktur, Produktion und Führungsunterstützung: Mingqing Chen, Stefan Dierauf, Billy Dou, Hubert Eichner, Zachary Garrett, Jeremy Gillula, Jianpeng Hou, Hui Li, Xu Liu, Wenzhi Mao, Brett McLarnon, Mengchen Pei, Daniel Ramage, Swaroop Ramaswamy, Haicheng Solar, Andreas Terzis, Yun Wang, Shanshan Wu, Yu Xiao und Shumin Zhai.

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert