Google veröffentlicht Gemini-SQL2: Gemini 3.1 Professional Textual content-to-SQL erreicht 80,04 % im BIRD Single-Mannequin Leaderboard

Das Google-Forschungsteam hat die Einführung von angekündigt Gemini-SQL2 auf X. Sie beschrieben dieses System als eine bahnbrechende Textual content-to-SQL-Funktion, die auf Gemini 3.1 Professional basiert. Gemini-SQL2 erzielte eine Ausführungsgenauigkeit von 80,04 % im BIRD Textual content-to-SQL Leaderboard (Einzelmodell). In der Tabelle von Google liegt es über seinem eigenen Gemini-SQL, dem vorherigen High-Eintrag. Die Metrik misst, ob generiertes SQL ausgeführt wird und korrekte Ergebnisse zurückgibt, nicht, ob es gültig aussieht.

https://x.com/GoogleResearch/standing/2065475343205740911

Gemini-SQL2

Gemini-SQL2 ist eine Textual content-zu-SQL-Funktion und keine eigenständige Basismodellversion. Es übersetzt Fragen in natürlicher Sprache in das, was Google als „ausführungsbereite SQL-Abfragen“ bezeichnet. Die Funktion basiert auf Gemini 3.1 Professional.

In der Ankündigung auf In der X-Publish heißt es außerdem, dass „ein verbessertes SQL-Verständnis die Fähigkeiten in natürlicher Sprache in den Datendiensten von Google verbessern kann.“ Das deutet auf Integrationsziele wie BigQuery Studio, AlloyDB AI und Cloud SQL Studio hin, die bereits die Gemini-basierte SQL-Generierung anbieten. Google hat noch nicht bestätigt, welche Produkte Gemini-SQL2 erhalten werden.

Benchmarks

BIRD (BIg Bench for LaRge-scale Database Grounded Textual content-to-SQL Analysis) ist ein Industriestandard für diese Aufgabe. Es enthält 12.751 Fragen-SQL-Paare in 95 Datenbanken, die 37 professionelle Domänen abdecken, insgesamt 33,4 GB. Die Datenbanken enthalten schmutzige Werte und erfordern im Gegensatz zu älteren Benchmarks wie Spider externe Wissensvermittlung.

BIRD misst die Ausführungsgenauigkeit (EX): Das generierte SQL muss ausgeführt werden und Ergebnisse zurückgeben, die mit der Gold-Abfrage übereinstimmen. Google hat dies direkt angegeben. „Laut BIRD-Benchmark, der die ausführungsverifizierte Genauigkeit misst, sieht das SQL von GeminiSQL-2 nicht nur richtig aus, es läuft auch erfolgreich.“

Der Single Skilled Mannequin Monitor schränkt die Vorverarbeitungs-, Abruf- und Agenten-Frameworks ein, die Ensembles zur Steigerung der Punktzahlen verwenden. Es misst die Kernfähigkeit des Modells, Textual content in SQL umzuwandeln. Der bisherige Rekord von Google Cloud auf diesem Weg, gemeldet am 15. November 2025, lag bei 76,13. Google bewertet die menschliche Leistung mit 92,96, was einen Abstand von 12,92 Punkten gegenüber 80,04 lässt.

Wie sich die Bestenliste schlägt

Das Diagramm von Google auf X-Publish zeigt, dass Gemini-SQL2 vor acht genannten Konkurrenten liegt, zusammen mit mehreren unbeschrifteten Punkten. Nur 80,04 % werden als Textual content angegeben. Die folgenden Werte werden aus der Place des Diagramms abgelesen und sind Näherungswerte. Die Daten spiegeln die horizontale Platzierung jedes Punkts wider.

System	Organisation	BIRD-Ausführungsgenauigkeit (Einzelmodell)	Diagrammdatum
Gemini-SQL2	Google	80,04 % (angegeben)	Juni 2026
Gemini-SQL	Google	~77,2 %	März 2026
Q-SQL	AWS	~76,5 %	Dez. 2025
Databricks RLVR 32B	Datenbausteine	~75,7 %	Juli 2025
SiriusAI-Text2SQL-32B-v2	Tencent	~75,0 %	Dez. 2025
Arctic-Text2SQL-R1-32B	Schneeflocke	~73,9 %	Juni 2025
GPT-5,5-xhoch	OpenAI	~72,5 %	April 2026
SQLWeaver-32B	Alibaba	~71,7 %	Mai 2026
Claude Opus 4.6	Anthropisch	~70,1 %	Februar 2026

Zwei Muster sind sichtbar. Mit Gemini-SQL2 und Gemini-SQL belegt Google nun die ersten beiden genannten Plätze. Mehrere spezialisierte 32B-SQL-Modelle liegen in dieser Tabelle auch über einigen allgemeinen Grenzmodellen.

Anwendungsfälle mit Beispielen

Self-Service-Analysen: Ein Income Supervisor fragt nach monatlich wiederkehrenden Einnahmen nach Area für Konten, die innerhalb von 90 Tagen nach dem Improve abgewandert sind. Dies erfordert Verknüpfungen, Fensterlogik und Datumsarithmetik. Die ausführungsverifizierte Generierung fängt SQL ab, das ausgeführt wird, aber falsche Zeilen zurückgibt.
Information-Engineering-Entwürfe: Entwickler können BigQuery-Transformationen auf Englisch entwerfen und dann überprüfen, anstatt sie von Grund auf neu zu schreiben. In der Arbeit von Google vom November 2025 wurde das Schemaverständnis als der schwierige Teil identifiziert. Höhere BIRD-Werte spiegeln einen besseren Umgang mit mehrdeutigen Spalten und unordentlichen Werten wider.
Eingebettete „Fragen Sie Ihre Daten“-Funktionen: SaaS-Groups, die Abfrageschnittstellen in natürlicher Sprache hinzufügen, benötigen immer noch eine menschliche Überprüfung mit einer Genauigkeit von 80 %. Jede fünfte Abfrage kann falsch sein. Die Bewertung legt Erwartungen fest, nicht die Entfernung einer Bewertung.

Gemini-SQL2 Einführung: Neighborhood-Empfangs-Dashboard

Verifizierte öffentliche Beteiligung an den Ankündigungsbeiträgen von Google Analysis • erste ca. 3 Stunden • 12. Juni 2026

BIRD-Einzelmodell-Bestenliste • Ausführungsgenauigkeit

Aufschlüsselung des Plattform-Engagements

X / Twitter (Hauptbeitrag)

Ansichten144,4K

Gefällt mir2.800

Reposts267

Lesezeichen1.300

Antworten64

Engagement-Charge3,1 %

LinkedIn (Hauptbeitrag)

Reaktionen349+

Kommentare12

Reposts27

Empfangssignal

Lesezeichen-plus-Gefällt mir-zu-Antwort-Verhältnis auf X. Eine hohe Speicherrate mit wenigen Antworten signalisiert normalerweise Zustimmung statt Kontroversen. Stimmung auf Kommentarebene noch nicht messbar; Antworten werden zum Zeitpunkt der Aufnahme noch geladen.

Implementierungsmuster

Google hat noch keine Gemini-SQL2-Modellzeichenfolge oder API veröffentlicht. Das folgende schemabasierte Muster funktioniert mit aktuellen Gemini-Modellen über das google-genai SDK. Tauschen Sie die Modellzeichenfolge aus, wenn Gemini-SQL2 ausgeliefert wird.

from google import genai

shopper = genai.Shopper()  # reads GEMINI_API_KEY from setting

schema = """
CREATE TABLE orders (
  order_id INTEGER, buyer TEXT, area TEXT,
  quantity REAL, standing TEXT, created_at DATE
);
"""

query = "Whole paid order quantity by area in 2026, highest first."

immediate = f"""You're a text-to-SQL system.
Schema:{schema}
Query: {query}
Return just one executable SQLite question. No clarification."""

resp = shopper.fashions.generate_content(
    mannequin="gemini-3.1-pro-preview",  # the bottom mannequin named within the announcement; swap when a Gemini-SQL2 ID ships
    contents=immediate,
)
print(resp.textual content)

Produktionssysteme sollten eine Ausführungsüberprüfung hinzufügen. Führen Sie die zurückgegebene SQL aus, fangen Sie Fehler ab und versuchen Sie es erneut mit der angehängten Fehlermeldung. Diese Schleife spiegelt wider, was die Ausführungsgenauigkeitsmetrik von BIRD belohnt.

Wichtige Erkenntnisse

Google meldet Gemini-SQL2 mit einer Ausführungsgenauigkeit von 80,04 % auf der BIRD-Einzelmodell-Bestenliste.
Die Funktion basiert auf Gemini 3.1 Professional und zielt auf „ausführungsbereites SQL“ ab, nicht nur auf plausibles SQL.
In der Google-Tabelle belegen Gemini-SQL2 und Gemini-SQL die ersten beiden genannten Plätze; Die menschliche Leistungsfähigkeit beträgt 92,96.
Es wurden noch keine Particulars zu API, Modellkarte, technischem Bericht oder Produktintegration veröffentlicht.

Visueller Erklärer von MARKTECHPOST

Textual content-to-SQL-Spielplatz

Die Aufgabe Gemini-SQL2 gerade gepunktet 80,04 % on (BIRD-Benchmark, Einzelmodell). Wählen Sie eine Frage aus, überprüfen Sie die generierte SQL und führen Sie sie dann auf einem Dwell-Datensatz im Browser aus.

1 • Fragen Sie in natürlicher Sprache

2 • Generiertes SQL

Choose a query above to generate SQL.

CREATE TABLE orders (
  order_id INTEGER, buyer TEXT, area TEXT,
  quantity REAL, standing TEXT, created_at DATE
);  -- 12 pattern rows loaded on this browser

Ausführungsgenauigkeit bedeutet, dass die SQL ausgeführt werden UND die richtigen Zeilen zurückgeben muss.

Schauen Sie sich das an Particulars hier. Sie können uns auch gerne weiter folgen Twitter und vergessen Sie nicht, bei uns mitzumachen 150k+ML SubReddit und Abonnieren Unser E-newsletter. Warten! Bist du im Telegram? Jetzt können Sie uns auch per Telegram kontaktieren.

Möchten Sie mit uns zusammenarbeiten, um Ihr GitHub-Repo ODER Ihre Hugging Face Web page ODER Produktveröffentlichung ODER Ihr Webinar usw. zu bewerben? Vernetzen Sie sich mit uns

Google veröffentlicht Gemini-SQL2: Gemini 3.1 Professional Textual content-to-SQL erreicht 80,04 % im BIRD Single-Mannequin Leaderboard

Gemini-SQL2

Benchmarks

Wie sich die Bestenliste schlägt

Anwendungsfälle mit Beispielen

Implementierungsmuster

Wichtige Erkenntnisse

Von admin

Schreibe einen Kommentar Antworten abbrechen

Versäumt

Sakana AI veröffentlicht Fugu-Cyber: Ein Orchestrierungsmodell mit 86,9 % bei CyberGym und 72,1 % bei CTI-REALM

Südkorea testet, ob Staatsschulden bis 2027 in ein gemeinsames Hauptbuch übertragen werden können |

Wenn es für Ihr Unternehmen sinnvoll ist

MIT-Projekte für Finanzierung im Rahmen der Genesis-Mission des US-Energieministeriums ausgewählt | MIT-Nachrichten

About

Categories

Tags

Recent Post

Sakana AI veröffentlicht Fugu-Cyber: Ein Orchestrierungsmodell mit 86,9 % bei CyberGym und 72,1 % bei CTI-REALM

Südkorea testet, ob Staatsschulden bis 2027 in ein gemeinsames Hauptbuch übertragen werden können |

Google veröffentlicht Gemini-SQL2: Gemini 3.1 Professional Textual content-to-SQL erreicht 80,04 % im BIRD Single-Mannequin Leaderboard

Gemini-SQL2

Benchmarks

Wie sich die Bestenliste schlägt

Anwendungsfälle mit Beispielen

Implementierungsmuster

Wichtige Erkenntnisse

Von admin

Ähnlicher Beitrag

Schreibe einen Kommentar Antworten abbrechen

Versäumt