Google hat gerade T5Gemma-2 eingestellt, und es ist ein Sport-Changer für jemanden, der damit arbeitet KI-Modelle auf alltäglicher {Hardware}. Dieses auf der Gemma 3-Familie basierende Encoder-Decoder-Kraftpaket vereint multimodale Intelligenz und umfangreichen Kontext in winzigen Paketen. Stellen Sie sich vor, dass 270 Millionen Parameter reibungslos auf Ihrem Laptop computer laufen. Wenn Sie nach einer effizienten KI suchen, die Texte, Bilder und lange Dokumente verarbeitet, ohne Ihr Price range zu sprengen, ist dies Ihr nächstes Experiment. Ich habe herumgespielt und die Ergebnisse haben mich einfach umgehauen, vor allem wenn man bedenkt, dass es sich um ein so leichtes Modell handelt.

In diesem Artikel werfen wir einen Blick auf das neue Software namens und schauen uns seine Fähigkeiten an

Was ist T5Gemma-2?

T5Gemma-2 ist die nächste Weiterentwicklung der Encoder-Decoder-Familie und umfasst die ersten multimodalen Encoder-Decoder-Modelle mit langem Kontext. Es entwickelt die Encoder-Decoder-Reihe von Google von vorab trainierten weiter Gemma 3 Nur-Decoder-Modelle, angepasst durch cleveres, kontinuierliches Vortraining. Es führt gebundene Einbettungen zwischen Encoder und Decoder ein, reduziert die Parameter bei gleichbleibender Leistung und erreicht die Größen 270M-270M (insgesamt 370M), 1B-1B (insgesamt 1,7B) und 4B-4B (insgesamt 7B).

Im Gegensatz zu reinen Decodern glänzen die separaten Encoder durch bidirektionale Verarbeitung für Aufgaben wie Zusammenfassung oder Qualitätssicherung. Es wurde bis August 2024 auf 2 Billionen Token trainiert und deckt Webdokumente, Code, Mathematik und Bilder in über 140 Sprachen ab.

Was macht T5Gemma-2 anders?

Hier sind einige Punkte, in denen sich T5Gemma-2 von anderen Lösungen dieser Artwork unterscheidet.

Architektonische Innovationen

T5Gemma-2 beinhaltet bedeutende architektonische Änderungen und übernimmt gleichzeitig viele der leistungsstarken Funktionen der Gemma 3-Familie.

1. Gebundene Einbettungen: Die Einbettungen zwischen Encoder und Decoder sind gebunden. Dadurch wird die Gesamtzahl der Parameter reduziert, wodurch mehr aktive Funktionen in den gleichen Speicherbedarf gepackt werden können, was die kompakten 270M-270M-Modelle erklärt.

2. Zusammengeführte Aufmerksamkeit: Im Decoder wurde ein Aufmerksamkeitsmechanismus zusammengeführt, der Selbst- und Queraufmerksamkeit in einer einzigen einheitlichen Aufmerksamkeitsschicht kombinierte. Dies reduziert die Modellparameter und die Architekturkomplexität, verbessert die Modellparallelisierung und fördert die Inferenz.

Upgrades der Modellfunktionen

1. Multimodalität: Frühere Modelle fühlten sich oft blind, weil sie nur mit Textual content arbeiten konnten, aber T5Gemma 2 kann gleichzeitig sehen und lesen. Wenn ein effizienter Imaginative and prescient-Encoder an den Stapel angeschlossen ist, kann er ein Bild sowie eine Eingabeaufforderung aufnehmen und mit detaillierten Antworten oder Erklärungen antworten

Das bedeutet, dass Sie:

  • Sie können Fragen zu Diagrammen, Dokumenten oder UI-Screenshots stellen.
  • Erstellen Sie visuelle Frage-Antwort-Instruments für Assist, Schulung oder Analyse.
  • Erstellen Sie Arbeitsabläufe, bei denen ein einziges Modell sowohl Ihren Textual content als auch Ihre Bilder liest, anstatt mehrere Systeme zu verwenden.

2. Erweiterter langer Kontext: Eines der größten Probleme bei der alltäglichen KI-Arbeit sind Kontextbeschränkungen. Sie können Eingaben entweder kürzen oder umgehen. T5Gemma-2 geht dieses Drawback an, indem es das Kontextfenster mithilfe eines von Gemma 3 übernommenen alternierenden lokal-globalen Aufmerksamkeitsmechanismus auf bis zu 128.000 Token erweitert.

Dadurch können Sie:

  • Geben Sie vollständige Forschungsarbeiten, Richtliniendokumente oder lange Codebasen ohne aggressives Chunking ein.
  • Laufen Sie treuer RAG-Pipelines wo das Modell große Teile des Quellmaterials auf einmal sehen kann.

3. Massiv mehrsprachig: T5Gemma-2 wird auf einem breiteren und vielfältigeren Datensatz trainiert, der standardmäßig über 140 Sprachen abdeckt. Dadurch eignet es sich hervorragend für globale Produkte, regionale Instruments und Anwendungsfälle, bei denen Englisch nicht die Standardeinstellung ist.

Du kannst:

  • Bedienen Sie Benutzer in mehreren Märkten mit einem einzigen Modell.
  • Erstellen Sie Übersetzungs-, Zusammenfassungs- oder Qualitätssicherungsabläufe, die in vielen Sprachen funktionieren.

Praktisch mit T5Gemma-2

Nehmen wir an, Sie sind ein Datenanalyst und schauen sich die Vertriebs-Dashboards Ihres Unternehmens an. Sie müssen mit Diagrammen aus mehreren Quellen arbeiten, einschließlich Screenshots und Berichten. Die aktuellen Imaginative and prescient-Modelle liefern entweder keine Erkenntnisse aus Bildern oder erfordern die Verwendung unterschiedlicher Imaginative and prescient-Modelle, was zu Redundanz in Ihrem Arbeitsablauf führt. T5Gemma-2 bietet Ihnen ein besseres Erlebnis, indem es Ihnen die gleichzeitige Verwendung von Bildern und Textaufforderungen ermöglicht, sodass Sie direkt von Ihrem Laptop computer aus präzisere Informationen aus Ihren visuellen Bildern, wie z. B. Balkendiagrammen oder Liniendiagrammen, erhalten können.

In dieser Demo wird das Modell 270M-270M (~370M Gesamtparameter) verwendet Google Colab um einen Screenshot eines vierteljährlichen Verkaufsdiagramms zu analysieren. Es beantwortet die Frage: „Welcher Monat hatte den höchsten Umsatz und wie hoch battle dieser Umsatz über dem Durchschnittsumsatz?“ In diesem Beispiel battle das Modell in der Lage, den Spitzenmonat leicht zu identifizieren, das Delta zu berechnen und eine genaue Antwort zu liefern, was es very best für den Einsatz in Analysen macht, entweder als Teil einer Reporting Automation Hole (RAG)-Pipeline oder zur Automatisierung der Berichterstellung.

Hier ist der Code, den wir dafür verwendet haben –

# Load mannequin and processor (use 270M-270M for laptop-friendly inference) 

from transformers import T5Gemma2Processor, T5Gemma2ForConditionalGeneration 

import torch 

from PIL import Picture 

import requests 

from io import BytesIO 

 

model_id = "google/t5gemma-2-270m-270m" # Compact multimodal variant 

processor = T5Gemma2Processor.from_pretrained(model_id) 

mannequin = T5Gemma2ForConditionalGeneration.from_pretrained( 

model_id, torch_dtype=torch.bfloat16, device_map="auto" 

) 

 

# Load chart picture (substitute together with your screenshot add) 

image_url = "https://instance.com/sales-chart.png" # Or: Picture.open("chart.png") 

picture = Picture.open(BytesIO(requests.get(image_url).content material)) 

 

# Multimodal immediate: picture + textual content query 

immediate = "Analyze this gross sales chart. What was the best income month and by how a lot did it exceed the common?" 

inputs = processor(textual content=immediate, photographs=picture, return_tensors="pt") 

 

# Generate response (128K context prepared for lengthy experiences too) 

with torch.no_grad(): 

generated_ids = mannequin.generate( 

**inputs, max_new_tokens=128, do_sample=False, temperature=0.0 

) 

response = processor.batch_decode(generated_ids, skip_special_tokens=True)(0) 

print(response) 

Hier ist die Ausgabe, die T5Gemma-2 liefern konnte

Der Juli verzeichnete mit 450.000 US-Greenback den höchsten Umsatz und übertraf damit den Quartalsdurchschnitt von 320.000 US-Greenback um 130.000 US-Greenback.“ Kein Chunking erforderlich – geben Sie als Nächstes vollständige Dokumente oder Codebasen ein. Testen Sie mehrsprachig: Tauschen Sie die Eingabeaufforderung für globale Groups auf Hindi aus. Quantisierung auf 4-Bit mit Bitsandbytes für den mobilen Einsatz.

Leistungsvergleich

Beim Vergleich von Benchmarks vor dem Coaching ist T5Gemma-2 eine kleinere und flexiblere Model von Gemma 3, verfügt jedoch über weitaus robustere Funktionen in fünf Bereichen: Mehrsprachigkeit, Multimodalität, MINT und Codierung, Argumentation und Sachlichkeit sowie langer Kontext. Speziell im Hinblick auf die multimodale Leistung ist T5Gemma-2 bei gleicher Modellgröße genauso intestine oder sogar besser als Gemma 3, obwohl es sich bei Gemma 3 270M und Gemma 3 1B ausschließlich um Textmodelle handelt, die auf Encoder-Decoder umgestellt wurden Imaginative and prescient-Sprachsysteme.

T5Gemma-2 enthält außerdem einen überlegenen langen Kontext, der sowohl Gemma 3 als auch T5Gemma übertrifft, da es über einen separaten Encoder verfügt, der längere Sequenzen genauer modelliert. Darüber hinaus bedeuten dieser verbesserte lange Kontext sowie eine Leistungssteigerung bei den Codierungstests, Argumentationstests und mehrsprachigen Exams, dass die Versionen 270M und 1B besonders intestine für Entwickler geeignet sind, die an typischen Computersystemen arbeiten.

Abschluss

T5Gemma-2 ist das erste Mal, dass wir es wirklich praktisch gesehen haben multimodale KI auf einem Laptop computer-Gerät. Kombiniert die Stärken von Gemma-3 mit effizienten Encoder-/Decoder-Designs, Unterstützung für Lengthy-Context-Argumentation und starker mehrsprachiger Abdeckung, alles in Laptop computer-freundlichen Paketgrößen.

Für Entwickler, Analysten und Bauherren ist die Möglichkeit, umfangreichere Bild-/Textverständnisse und Workflows für lange Dokumente bereitzustellen, ohne auf serverlastige Stacks angewiesen zu sein, enorm.

Wenn Sie auf ein wirklich kompaktes Modell gewartet haben, mit dem Sie alle Ihre lokalen Experimente durchführen und gleichzeitig zuverlässige, reale Produkte erstellen können, sollten Sie T5Gemma-2 unbedingt zu Ihrem Werkzeugkasten hinzufügen.

Ich bin Knowledge Science Trainee bei Analytics Vidhya und arbeite leidenschaftlich an der Entwicklung fortschrittlicher KI-Lösungen wie generative KI-Anwendungen, große Sprachmodelle und hochmoderne KI-Instruments, die die Grenzen der Technologie verschieben. Zu meinen Aufgaben gehört es auch, ansprechende Bildungsinhalte für die YouTube-Kanäle von Analytics Vidhya zu erstellen, umfassende Kurse zu entwickeln, die das gesamte Spektrum von maschinellem Lernen bis hin zu generativer KI abdecken, und technische Blogs zu verfassen, die grundlegende Konzepte mit den neuesten Innovationen in der KI verbinden. Dadurch möchte ich zum Aufbau intelligenter Systeme beitragen und Wissen teilen, das die KI-Group inspiriert und stärkt.

Melden Sie sich an, um weiterzulesen und von Experten kuratierte Inhalte zu genießen.

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert