Nach einer beeindruckenden Effizienz mit Gemma 3 hat Google die Grenzen mit Gemma 3n noch weiter verschärft, nachdem er eine leistungsstarke KI auf einer einzelnen GPU ausgeführt hat. Diese neue Model bringt hochmoderne KI auf Mobil- und Edge-Geräte, wobei minimaler Speicher verwendet wird und gleichzeitig eine schnelle, multimodale Leistung liefert. In diesem Artikel werden wir untersuchen, was Gemma 3n so leistungsfähig macht, wie es unter der Haube mit Innovationen wie Per-Layer-Embettdings (PLE) und Matformer-Architektur funktioniert und wie man mit Google AI Studio auf Gemma 3n zugreifen kann. Wenn Sie ein Entwickler sind, der schnelle, intelligente und leichte AI -Apps erstellen möchte, ist dies Ihr Ausgangspunkt.
Was ist Gemma 3n?
Gemma 3 zeigten uns, dass leistungsstarke KI -Modelle selbst bei einer einzelnen GPU effizient laufen können, während sie größere Modelle wie übertreffen Deepseek v3 In Chatbot -Elo -Ergebnissen mit deutlich weniger Berechnung. Jetzt hat Google die Dinge mit Gemma 3n weiter geführt, um noch kleinere Umgebungen vorhandenen, wie Mobiltelefonen und Kantengeräten auf modernste Leistung zu bringen.
Um dies möglich zu machen, hat Google mit {Hardware}-Führungskräften wie Qualcomm, MediaTek und Samsung System LSI eine neue KI-Architektur für das Gerät eingesetzt, die schnelle, non-public und multimodale KI-Erlebnisse führt. Das „N“ in Gemma 3n steht für Nano und spiegelt seine geringen und und leistungsstarken Fähigkeiten wider.
Diese neue Architektur basiert auf zwei wichtigen Innovationen:
- Professional Schicht Einbettung (PLE): Innoviert von Google DeepMind, um die Speicherverwendung zu reduzieren, indem schichtspezifische Daten außerhalb des Hauptspeichers des Modells zwischengespeichert und verwaltet werden. Es ermöglicht größere Modelle (5B- und 8B -Parameter), mit nur gerecht zu werden 2 GB bis 3 GB RAMähnlich wie 2B- und 4B -Modelle.
- Matformer (Matryoshka -Transformator): Eine verschachtelte Modellarchitektur, mit der kleinere Untermodelle innerhalb eines größeren Modells unabhängig funktionieren können. Dies gibt den Entwicklern die Flexibilität, Leistung oder Geschwindigkeit zu wählen, ohne Modelle zu wechseln oder die Speicherverwendung zu erhöhen.
Zusammen machen diese Innovationen Gemma 3n effizient, um Hochleistungs-multimodale KI auf niedrigen Ressourcen-Geräten zu betreiben.
Wie erhöht PLE die Leistung von Gemma 3n?
Wenn Gemma-3N-Modelle ausgeführt werden, werden Einstellungen für Einbettungseinstellungen (Layer-Einbettung) verwendet, um Daten zu generieren, die die Leistung jeder Modellschicht verbessern. Während jeder Schicht können die PLE -Daten unabhängig außerhalb des Arbeitsspeichers des Modells zum schnellen Speicher erstellt und dann in den Modellinferenzprozess integriert werden. Durch die Verhinderung des Eingebens von PLE -Parametern in den Modellspeicherraum senkt diese Methode die Verwendung der Ressourcen, ohne die Qualität der Reaktion des Modells zu beeinträchtigen.
Gemma 3N -Modelle sind mit Parameterzahlen wie E2B und E4B gekennzeichnet, die sich auf ihre effektive Parameterverwendung beziehen, ein Wert, der niedriger als die Gesamtzahl der Parameter ist. Das Präfix „E“ bedeutet, dass diese Modelle dank der in Gemma 3N eingebetteten flexiblen Parametertechnologie mit einem reduzierten Parametersatz arbeiten können, sodass sie auf Geräten mit niedrigeren Ressourcen effizienter laufen können.
Diese Modelle organisieren ihre Parameter in vier Schlüsselkategorien: Textual content-, Visible-, Audio- und pro-Schayer-Einbettungsparameter (PLE). Während das E2B -Modell beispielsweise während der Standardausführung normalerweise über 5 Milliarden Parameter lädt, kann es seinen aktiven Speicher -Fußabdruck auf nur 1,91 Milliarden Parameter unter Verwendung des Parameters überspringen und Ple Caching reduzieren, wie im folgenden Bild gezeigt:
Schlüsselmerkmale von Gemma 3n
Gemma 3n ist für Geräteaufgaben beendet:
- Dies ist die Fähigkeit des Modells, Benutzereingaben zu verwenden, um bestimmte Vorgänge direkt auf dem Gerät zu initiieren oder aufzurufen, z. B. das Starten von Apps, das Senden von Erinnerungen, das Einschalten einer Taschenlampe usw. Ermöglicht die KI, mehr als nur zu antworten. Es kann auch mit dem Gerät selbst kommunizieren.
- Gemma 3n kann Eingänge verstehen und auf Eingaben reagieren, die Textual content und Grafiken kombinieren, wenn sie verschachtelt sind. Zum Beispiel kann das Modell beides verarbeiten, wenn Sie ein Bild hochladen und eine Textanfrage darüber fragen.
- Zum ersten Mal in der Gemma -Familie kann es sowohl Audio- als auch visuelle Eingaben verstehen. Audio und Video wurden von früheren Gemma -Modellen nicht unterstützt. Gemma 3n kann jetzt Movies anzeigen und Ton anhören, um zu verstehen, was geschieht, z. B. Aktionen, Rede zu erkennen oder auf Anfragen auf der Grundlage eines Videoclips zu reagieren.
Auf diese Weise kann das Modell mit der Umgebung interagieren und Benutzer natürlich mit Anwendungen interagieren. Gemma 3n ist 1,5 -mal schneller als Gemma 3 4b auf Mobilgeräten. Dies erhöht die Fluidität in der Benutzererfahrung (überwindet die Erzeugungslatenz in LLMs).
Gemma 3n hat ein kleineres Submodel als eindeutige 2 -in -1 -Matformer -Architektur. Dadurch können Benutzer die Leistung und Geschwindigkeit dynamisch auswählen. Und dazu müssen wir kein separates Modell verwalten. All dies geschieht in der gleichen Speicherpflichtzrudern.
Wie hilft die Matformer -Architektur?
Eine Architektur des Matryoshka -Transformators oder der Matformer -Modellarchitektur, die aus verschachtelten kleineren Modellen in einem größeren Modell besteht, wird von Gemma 3N -Modellen verwendet. Es ist möglich, Schlussfolgerungen mithilfe der geschichteten Untermodelle zu ziehen, ohne die Parameter der umschließenden Modelle auszulösen, während Sie auf Abfragen reagieren. Das Ausführen nur der kleineren Kernmodelle in einem Matformer -Modell senkt den Energieausdruck, die Reaktionszeit und die Berechnung der Kosten des Modells. Die Parameter des E2B -Modells sind im E4B -Modell für Gemma 3n enthalten. Sie können auch Einstellungen auswählen und Modelle in Größen zusammenstellen, die mit dieser Architektur zwischen 2B und 4B liegen.
Wie kann ich Gemma 3n zugreifen?
Gemma 3n Preview ist in Google AI Studio, Google Genai SDK und MediaPipe (Huggingface und Kaggle) verfügbar. Wir werden mit Google AI Studio auf Gemma 3n zugreifen.

- Schritt 1: Melden Sie sich bei Google AI Studio an
- Schritt 2: Klicken Sie auf die Style GET API

- Schritt 3: Klicken Sie auf die API -Style erstellen

- Schritt 4: Wählen Sie ein Projekt Ihrer Wahl und klicken Sie auf die API -Style erstellen

- Schritt 5: Kopieren Sie die API und speichern Sie sie für weitere Verwendung, um auf Gemma 3n zuzugreifen.
- Schritt 6: Jetzt, da wir die API haben, lassen Sie uns eine Colab -Instanz aufspinnen. Verwenden Sie Colab.New im Browser, um ein neues Notizbuch zu erstellen.
- Schritt 7: Installieren Sie Abhängigkeiten
!pip set up google-genai
Schritt 8: Verwenden Sie geheime Schlüssel in Colab, um gemini_api_key zu speichern, und aktivieren Sie auch den Pocket book -Zugriff.

- Schritt 9: Verwenden Sie den folgenden Code, um Umgebungsvariablen festzulegen:
from google.colab import userdata
import os
os.environ("GEMINI_API_KEY") = userdata.get('GEMINI_API_KEY')
- Schritt 10: Führen Sie den folgenden Code aus, um Ergebnisse aus Gemma 3n zu schließen:
import base64
import os
from google import genai
from google.genai import sorts
def generate():
consumer = genai.Shopper(
api_key=os.environ.get("GEMINI_API_KEY"),
)
mannequin = "gemma-3n-e4b-it"
contents = (
sorts.Content material(
position="person",
elements=(
sorts.Half.from_text(textual content="""Anu is a lady. She has three brothers. Every of her brothers has the identical two sisters. What number of sisters does Anu have?"""),
),
),
)
generate_content_config = sorts.GenerateContentConfig(
response_mime_type="textual content/plain",
)
for chunk in consumer.fashions.generate_content_stream(
mannequin=mannequin,
contents=contents,
config=generate_content_config,
):
print(chunk.textual content, finish="")
if __name__ == "__main__":
generate()
Ausgabe:

Lesen Sie auch: High 13 kleine Sprachmodelle (SLMs)
Abschluss
Gemma 3n ist ein großer Sprung für KI auf kleinen Geräten. Es führt leistungsstarke Modelle mit weniger Speicher und schnellerer Geschwindigkeit aus. Dank Ple und Matformer ist es effizient und clever. Es funktioniert mit Textual content, Bildern, Audio und sogar mit Video-All-On-System. Google hat es Entwicklern leicht gemacht, Gemma 3N über Google AI Studio zu testen und zu verwenden. Wenn Sie Mobilfunk- oder Edge -AI -Apps erstellen, ist Gemma 3n auf jeden Fall erkundet. Kasse Google AI Edge Um die Gemma 3 lokal zu führen.
Melden Sie sich an, um weiter zu lesen und Experten-Kuratinhalte zu genießen.