Gesponserte Inhalte
Traditionelle Datenplattformen haben sich lange an strukturierten Abfragen zu tabellarischen Daten ausgezeichnet – denken Sie: „Wie viele Einheiten hat die Area West im letzten Quartal verkauft?“ Diese zugrunde liegende relationale Stiftung ist mächtig. Angesichts des wachsenden Volumens und der Bedeutung multimodaler Daten (z. B. Bilder, Audio, unstrukturierter Textual content) ist die Beantwortung nuancierter semantischer Fragen, indem sie sich auf traditionelle, externe Pipelines für maschinelles Lernen verlassen, zu einem erheblichen Engpass.
Betrachten Sie ein gemeinsames E-Commerce-Szenario: „Identifizieren Sie Elektronikprodukte mit hohen Rendite-Raten, die mit Kundenfotos verbunden sind, die bei der Ankunft Anzeichen von Schäden zeigen.“ In der Vergangenheit bedeutete dies die Verwendung von SQL für strukturierte Produktdaten, das Senden von Bildern an eine separate ML -Pipeline zur Analyse und schließlich, die unterschiedlichen Ergebnisse zu kombinieren. Ein mehrstufiger, zeitaufwändiger Prozess, bei dem AI im Wesentlichen auf den Datenfluss verschraubt wurde, als in der analytischen Umgebung nativ integriert.
Stellen Sie sich vor, Sie würden diese Aufgabe mit einer einzigen eleganten SQL -Anweisung mit dieser Aufgabe angehen und strukturierte Daten mit Erkenntnissen aus unstrukturierten visuellen Medien kombinieren. Dieser Sprung ist möglich, indem generative KI direkt in den Kern der modernen Datenplattform integriert wird. Es führt eine neue Ära ein, in der ausgefeilte, multimodale Analysen mit bekanntem SQL durchgeführt werden können.
Lassen Sie uns untersuchen, wie generative KI Datenplattformen grundlegend umformt und es Praktikern ermöglicht, multimodale Erkenntnisse mit der Vielseitigkeit von SQL zu liefern.
Relationale Algebra trifft die generative KI
Traditionelle Knowledge Warehouses leiten ihre Macht von einer Stiftung in relationaler Algebra ab. Dies liefert ein mathematisch definiertes und konsistentes Framework für strukturierte, tabellarische Daten, wobei hervorragende Schemata intestine definiert sind.
Multimodale Daten enthalten jedoch umfangreiche semantische Inhalte, die die relationale Algebra an sich nicht direkt interpretieren kann. Generative KI -Integration fungiert als semantische Brücke. Dies ermöglicht Abfragen, die die Fähigkeit einer KI nutzen, komplexe Signale zu interpretieren, die in multimodale Daten eingebettet sind, und ermöglicht es ihm, ähnlich wie Menschen zu verhindern, wodurch die Einschränkungen herkömmlicher Datentypen und SQL -Funktionen überschritten werden.
Um diese Entwicklung voll und ganz zu schätzen, lassen Sie uns zunächst die architektonischen Komponenten untersuchen, die diese Funktionen ermöglichen.
Generative KI in Aktion
Moderne Daten zu AI -Plattformen ermöglichen es Unternehmen, mit Daten zu interagieren, indem generative KI -Funktionen in ihren Kern einbetten. Anstelle von ETL -Pipelines zu externen Diensten Funktionen wie BigQuery’s AI.GENERATE Und AI.GENERATE_TABLE Ermöglichen Sie den Benutzern, leistungsstarke Großsprachenmodelle (LLMs) mit bekanntem SQL zu nutzen. Diese Funktionen kombinieren Daten aus einer vorhandenen Tabelle zusammen mit einer benutzerdefinierten Eingabeaufforderung zu einem LLM und geben eine Antwort zurück.
Unstrukturierte Textanalyse
Betrachten Sie ein E-Commerce-Unternehmen mit einer Tabelle mit Millionen von Produktbewertungen in Tausenden von Artikeln. Die manuelle Analyse in diesem Band zum Verständnis der Kundenmeinung ist unerschwinglich zeitaufwändig. Stattdessen können AI -Funktionen automatisch Schlüsselthemen aus jeder Überprüfung extrahieren und präzise Zusammenfassungen generieren. Diese Zusammenfassungen können potenzielle Kunden schnelle und aufschlussreiche Übersichten bieten.
Multimodale Analyse
Und diese Funktionen erstrecken sich über nicht tabellose Daten. Moderne LLMs können Erkenntnisse aus multimodalen Daten extrahieren. Diese Daten leben normalerweise in Cloud -Objektspeichern wie Google Cloud Storage (GCS). BigQuery vereinfacht den Zugriff auf diese Objekte mit ObjectRef. ObjectRef Spalten befinden sich in Commonplace -BigQuery -Tabellen und referenzieren Sie sicher Objekte in GCS zur Analyse.
Berücksichtigen Sie die Möglichkeiten, strukturierte und unstrukturierte Daten für das E-Commerce-Beispiel zu kombinieren:
- Identifizieren Sie alle im Jahr 2024 verkauften Telefone mit häufigen Kundenbeschwerden von „Bluetooth-Paarungsproblemen“ und zeigten das Produktbenutzerhandbuch (PDF), um festzustellen, ob Schritte für Fehlerbehebung fehlen.
- Pay attention Sie die Versandanbieter auf, die am häufigsten mit „beschädigten Ankunftsvorfällen“ für die westliche Area assoziiert sind, indem kundenstechnische Fotos analysiert werden, die transitbezogene Schäden zeigen.
Um Situationen zu beheben, in denen Erkenntnisse neben strukturierten Tabellendaten von der Analyse der externen Datei abhängen, verwendet BigQuery ObjectRef. Mal sehen, wie ObjectRef Verbessert eine Commonplace -BigQuery -Tabelle. Betrachten Sie eine Tabelle mit grundlegenden Produktinformationen:
Wir können leicht eine hinzufügen ObjectRef Spalte genannt manuals In diesem Beispiel, um auf das in GCS gespeicherte offizielle Produkthandbuch zu verweisen. Dies ermöglicht das ObjectRef Seite an Seite mit strukturierten Daten zu leben:
Diese Integration führt eine komplexe multimodale Analyse. Schauen wir uns ein Beispiel an, in dem wir Q & A -Paare mit Kundenbewertungen (Textual content) und Produkthandbüchern (PDF) generieren:
SQL
SELECT
product_id,
product_name,
question_answer
FROM
AI.GENERATE_TABLE(
MODEL `my_dataset.gemini`,
(SELECT product_id, product_name,
('Use opinions and product guide PDF to generate frequent query/solutions',
customer_reviews,
manuals
) AS immediate,
FROM `my_dataset.reviews_multimodal`
),
STRUCT("question_answer ARRAY" AS output_schema)
);
Das sofortige Argument von AI.GENERATE_TABLE In dieser Abfrage verwendet drei Haupteingänge:
- Eine Textanweisung an das Modell, um häufig häufig gestellte Fragen zu generieren
- Der
customer_reviewsSpalte (eine Zeichenfolge mit aggregierter Textkommentar) - Der
manuals ObjectRefSpalte, direkt mit dem Produkthandbuch PDF verlinken
Die Funktion verwendet eine unstrukturierte Textspalte Und Das zugrunde liegende PDF wurde in GCS gespeichert, um den KI -Betrieb durchzuführen. Die Ausgabe ist eine Reihe wertvoller Q & A -Paare, mit denen Potenziale Kunden das Produkt besser verstehen können:
Erweiterung des Nutzens von Objectref
Wir können leicht zusätzliche multimodale Vermögenswerte einbeziehen, indem wir mehr hinzufügen ObjectRef Spalten zu unserer Tabelle. Wenn wir das E-Commerce-Szenario fortsetzen, fügen wir eine hinzu ObjectRef Spalte aufgerufen product_imagewas sich auf das offizielle Produktbild bezieht, das auf der Web site angezeigt wird.
Und da ObjectRefS sind Strukturdatentypen, sie unterstützen die Verschachtelung mit Arrays. Dies ist besonders leistungsfähig für Szenarien, in denen ein primärer Datensatz mehrere unstrukturierte Objekte bezieht. Zum Beispiel a customer_images Säule könnte eine Reihe von einer Reihe von sein ObjectRefS, jeweils auf ein anderes kundenspeichertes Produktbild, das in GCS gespeichert ist.
Diese Fähigkeit, eins zu eins und eins zu viele Beziehungen zwischen strukturierten Aufzeichnungen und verschiedenen unstrukturierten Datenobjekten (innerhalb von BigQuery und SQL!) Versatile modellieren, eröffnet analytische Möglichkeiten, die zuvor mehrere externe Instruments erforderten.
Typspezifische KI-Funktionen
AI.GENERATE Funktionen bieten Flexibilität bei der Definition von Ausgangsschemata. Für gemeinsame analytische Aufgaben, die stark typisierte Outputs erfordern, bietet BigQuery typspezifische KI-Funktionen. Diese Funktionen können Textual content analysieren oder ObjectRefs mit einem LLM und geben Sie die Antwort als Struktur direkt an BigQuery zurück.
Hier sind einige Beispiele:
- Ai.Generate_booL: Verfahrenseingabe (Textual content oder Objectrefs) und gibt einen BOOL -Wert zurück, der für die Stimmungsanalyse oder eine echte/falsche Bestimmung nützlich ist.
- Ai.Generate_int: Gibt einen ganzzahligen Wert zurück, der zum Extrahieren numerischer Zählungen, Bewertungen oder quantifizierbarer ganzzahliger Attribute aus Daten nützlich ist.
- Ai.Generate_double: Gibt eine schwimmende Punktzahl zurück, die zum Extrahieren von Bewerten, Messungen oder finanziellen Werten nützlich ist.
Der Hauptvorteil dieser typenspezifischen Funktionen ist die Durchsetzung von Ausgangsdatentypen, die vorhersehbare Skalarergebnisse (z. B. Booleschen, Ganzzahlen, Doppel) von unstrukturierten Eingaben unter Verwendung einfacher SQL sicherstellen.
Stellen Sie sich vor, wir möchten auf unserem E-Commerce-Beispiel schnell Produktbewertungen hinweisen, in denen Versand- oder Verpackungsprobleme erwähnt werden. Wir können verwenden AI.GENERATE_BOOL Für diese binäre Klassifizierung:
SQL
SELECT *
FROM `my_dataset.reviews_table`
AI.GENERATE_BOOL(
immediate => ("The evaluate mentions a transport or packaging downside", customer_reviews),
connection_id => "us-central1.conn");
Die Abfrage filtert und gibt Zeilen zurück, in denen Probleme mit Versand oder Verpackung erwähnt werden. Beachten Sie, dass wir es getan haben nicht müssen Schlüsselwörter angeben (z. B. „kaputt“, „beschädigt“) – diese semantische Bedeutung innerhalb jeder Überprüfung wird vom LLM überprüft.
Alles zusammenbringen: eine einheitliche multimodale Abfrage
Wir haben untersucht, wie generative KI die Funktionen der Datenplattform verbessert. Lassen Sie uns nun die E-Commerce-Herausforderung erneut in der Einführung übernehmen: „Identifizieren Sie Elektronikprodukte mit hohen Rendite, die mit Kundenfotos verbunden sind, die Anzeichen von Schäden bei der Ankunft zeigen.“ Historisch gesehen erforderten dies unterschiedliche Pipelines und umfassten häufig mehrere Personas (Datenwissenschaftler, Datenanalyst, Dateningenieur).
Mit integrierten KI -Funktionen kann eine elegante SQL -Abfrage diese Frage nun beantworten:
Diese einheitliche Abfrage zeigt eine signifikante Entwicklung der Funktionsweise von Datenplattformen. Anstatt lediglich unterschiedliche Datentypen zu speichern und abzurufen, wird die Plattform zu einer aktiven Umgebung, in der Benutzer Geschäftsfragen stellen und Antworten zurückgeben können, indem sie direkt strukturierte und unstrukturierte Daten nebeneinander analysieren, indem sie eine vertraute SQL-Schnittstelle verwenden. Diese Integration bietet einen direkteren Weg zu Erkenntnissen, die bisher spezialisiertes Fachwissen und Werkzeug erforderlich waren.
Semantische Argumentation mit KI -Question -Motor (bald kommt)
Während Funktionen mögen AI.GENERATE_TABLE BigQuery sind leistungsstarke für die KI-Verarbeitung von Zeilen für die Verarbeitung von Zeilen (Anreicherung einzelner Aufzeichnungen oder generieren neuer Daten) und zielt auch darauf ab, ein ganzheitlicheres, semantischeres Argument mit AI-Question-Engine (AIQE) zu integrieren.
Das Ziel von AIQE ist es, Datenanalysten zu stärken, auch diejenigen ohne tiefe KI -Experience, um komplexe semantische Argumentation in ganzen Datensätzen durchzuführen. AIQE erreicht dies, indem sie Komplexitäten wie Proportion Engineering abstrahieren und es Benutzern ermöglicht, sich auf die Geschäftslogik zu konzentrieren.
Beispiele für die AIQE -Funktionen können Folgendes umfassen:
- Ai.if: Für semantische Filterung. Ein LLM bewertet, ob die Daten einer Reihe mit einer natürlichen Sprachbedingung in der Eingabeaufforderung ausgerichtet sind (z. B. „Rückgabe von Produktbewertungen, die Bedenken hinsichtlich der Überhitzung aussprechen“).
- Ai.be part of: Schließt sich Tabellen an, die auf semantischer Ähnlichkeit oder Beziehungen in der natürlichen Sprache basieren – nicht nur ausdrücklich die Schlüsselgleichheit (z. B. „Kundendiensttickets mit den relevanten Abschnitten in Ihrer Produktwissenbasis verknüpfen“).
- Ai.rating: Rangreihen oder Bestellungen zielen danach, wie intestine sie zu einer semantischen Erkrankung passt, die für „Prime-Ok“ -Szenarien nützlich ist (z. B. „Finden Sie die 10 besten Buyer-Help-Anrufe“).
Schlussfolgerung: Die sich entwickelnde Datenplattform
Datenplattformen bleiben in einem kontinuierlichen Evolutionszustand. Aus den Ursprüngen, die sich auf die Verwaltung strukturierter relationaler Daten konzentrieren, nutzen sie nun die Möglichkeiten, die unstrukturierte, multimodale Daten vorhanden sind. Die direkte Integration von KI-betriebenen SQL-Operatoren und Unterstützung für Verweise auf willkürliche Dateien in Objektspeichern mit Mechanismen wie ObjectRef stellen eine grundlegende Verschiebung bei der Interaktion mit Daten dar.
Da die Grenzen zwischen Datenverwaltung und KI weiter konvergieren, bleibt das Knowledge Warehouse der zentrale Hub für Unternehmensdaten-nun mit der Fähigkeit, auf reichhaltigere, menschlichere Weise zu verstehen. Komplexe multimodale Fragen, die einst unterschiedliche Instruments und umfangreiches KI -Fachwissen erforderten, können jetzt mit größerer Einfachheit beantwortet werden. Diese Entwicklung in Richtung fähigerer Datenplattformen demokratisieren fortgeschrittene Analysen weiterhin und ermöglicht es ein breiteres Spektrum an SQL-professionellen Benutzern, tiefe Erkenntnisse abzugeben.
Um diese Funktionen zu untersuchen und mit multimodalen Daten in BigQuery zu arbeiten:
Autor: Jeff Nelson, Developer Relations Engineer, Google Cloud
