Google DeepMind-Forscher stellen Gemma Scope 2 vor, eine offene Suite von Interpretierbarkeitstools, die offenlegt, wie Gemma 3-Sprachmodelle Informationen über alle Ebenen hinweg verarbeiten und darstellen, von 270M bis 27B Parametern.

Das Hauptziel ist einfach: KI-Sicherheits- und Ausrichtungsteams eine praktische Möglichkeit zu geben, das Modellverhalten auf interne Merkmale zurückzuführen, anstatt sich nur auf die Eingabe-Ausgabe-Analyse zu verlassen. Wenn ein Gemma-3-Modell einen Jailbreak ausführt, halluziniert oder kriecherisches Verhalten zeigt, können Forscher mit Gemma Scope 2 untersuchen, welche internen Funktionen ausgelöst wurden und wie diese Aktivierungen durch das Netzwerk flossen.

Was ist Gemma Scope 2?

Gemma Scope 2 ist eine umfassende, offene Suite von Sparse-Autoencodern und zugehörigen Instruments, die auf interne Aktivierungen der Gemma 3-Modellfamilie trainiert sind. Sparse Autoencoder (SAEs) fungieren als Mikroskop für das Modell. Sie zerlegen hochdimensionale Aktivierungen in einen spärlichen Satz menschlicher inspizierbarer Merkmale, die Konzepten oder Verhaltensweisen entsprechen.

Für das Coaching von Gemma Scope 2 waren die Speicherung von etwa 110 Petabyte an Aktivierungsdaten und die Anpassung von über 1 Billion Gesamtparametern an alle Interpretierbarkeitsmodelle erforderlich.

Die Suite zielt auf alle Gemma-3-Varianten ab, einschließlich der Parametermodelle 270M, 1B, 4B, 12B und 27B, und deckt die gesamte Tiefe des Netzwerks ab. Dies ist wichtig, da viele sicherheitsrelevante Verhaltensweisen erst in größeren Maßstäben auftreten.

Was ist neu im Vergleich zum ursprünglichen Gemma Scope??

Die erste Gemma Scope-Veröffentlichung konzentrierte sich auf Gemma 2 und ermöglichte bereits die Erforschung von Modellhalluzinationen, die Identifizierung von Geheimnissen, die einem Modell bekannt sind, und das Coaching sichererer Modelle.

Gemma Scope 2 erweitert diese Arbeit im Wesentlichen auf vier Arten:

  1. Die Instruments decken nun die gesamte Gemma-3-Familie mit bis zu 27B Parametern ab, was zur Untersuchung neu auftretender Verhaltensweisen erforderlich ist, die nur in größeren Modellen beobachtet werden, wie beispielsweise das Verhalten, das zuvor im C2S-Scale-Modell der Größe 27B für wissenschaftliche Entdeckungsaufgaben analysiert wurde.
  2. Gemma Scope 2 umfasst SAEs und Transcoder, die auf jeder Ebene von Gemma 3 geschult sind. Skip-Transcoder und Cross-Layer-Transcoder helfen dabei, mehrstufige Berechnungen zu verfolgen, die über Ebenen verteilt sind.
  3. Die Suite wendet die Matryoshka-Trainingstechnik an, sodass SAEs nützlichere und stabilere Funktionen erlernen und einige in der früheren Gemma Scope-Model identifizierte Mängel beheben können.
  4. Es gibt spezielle Interpretierbarkeitstools für Gemma 3-Modelle, die für den Chat optimiert sind und es ermöglichen, mehrstufiges Verhalten wie Jailbreaks, Ablehnungsmechanismen und die Treue der Gedankenkette zu analysieren.

Wichtige Erkenntnisse

  1. Gemma Scope 2 ist eine offene Interpretierbarkeitssuite für alle Gemma 3-Modelle, von 270M bis 27B Parametern, mit SAEs und Transcodern auf jeder Ebene sowohl vorab trainierter als auch auf Anweisungen abgestimmter Varianten.
  2. Die Suite verwendet Sparse-Autoencoder als Mikroskop, das interne Aktivierungen in spärliche, konzeptähnliche Options zerlegt, sowie Transcoder, die verfolgen, wie sich diese Options über Schichten hinweg ausbreiten.
  3. Gemma Scope 2 ist explizit für die KI-Sicherheitsarbeit positioniert, um Jailbreaks, Halluzinationen, Speichelleckerei, Ablehnungsmechanismen und Diskrepanzen zwischen internem Zustand und kommunizierter Argumentation in Gemma 3 zu untersuchen.

Schauen Sie sich das an Papier, Technische Particulars Und Modellgewichte. Sie können uns auch gerne weiter folgen Twitter und vergessen Sie nicht, bei uns mitzumachen 100.000+ ML SubReddit und Abonnieren Unser Publication. Warten! Bist du im Telegram? Jetzt können Sie uns auch per Telegram kontaktieren.


Michal Sutter ist ein Information-Science-Experte mit einem Grasp of Science in Information Science von der Universität Padua. Mit einer soliden Grundlage in statistischer Analyse, maschinellem Lernen und Datentechnik ist Michal hervorragend darin, komplexe Datensätze in umsetzbare Erkenntnisse umzuwandeln.

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert