KI-Anwendungen arbeiten selten mit einer einzigen sauberen Tabelle. Sie vermischen Benutzerprofile, Chatprotokolle, JSON-Metadaten, Einbettungen und manchmal auch räumliche Daten. Die meisten Groups beantworten diese Frage mit einem Flickenteppich aus einer OLTP-Datenbank, einem Vektorspeicher und einer Suchmaschine. OceanBase freigegeben suchdbeine Open-Supply-Datenbank mit KI-Fokus (unter der Apache 2.0-Lizenz). seedb wird als native KI-Suchdatenbank beschrieben, die relationale Daten, Vektordaten, Textual content, JSON und GIS in einer Engine vereint und Hybridsuche und KI-Workflows in Datenbanken ermöglicht.

Was ist seedb?

suchdb ist als leichte, eingebettete Model der OceanBase-Engine positioniert, die eher auf KI-Anwendungen als auf verteilte Allzweckbereitstellungen abzielt. Es läuft als Einzelknotendatenbank, unterstützt den eingebetteten Modus sowie den Shopper- oder Servermodus und bleibt mit MySQL-Treibern und SQL-Syntax kompatibel.

In der Fähigkeitsmatrix suchdb ist gekennzeichnet als:

  • Eingebettete Datenbank wird unterstützt
  • Eigenständige Datenbank unterstützt
  • Verteilte Datenbank wird nicht unterstützt

während das vollständige OceanBase-Produkt den verteilten Fall abdeckt.

Aus Sicht des Datenmodells suchdb unterstützt:

  • Relationale Daten mit Commonplace-SQL
  • Vektorsuche
  • Volltextsuche
  • JSON-Daten
  • Räumliche GIS-Daten

alles innerhalb einer Speicher- und Indexierungsschicht.

Hybride Suche als Kernfunktion

Das Hauptmerkmal von OceanBase ist die Hybridsuche. Hierbei handelt es sich um eine Suche, die vektorbasiertes semantisches Abrufen, Volltext-Schlüsselwortabruf und Skalarfilter in einer einzigen Abfrage und einem einzigen Rating-Schritt kombiniert.

suchdb implementiert die Hybridsuche über ein Systempaket namens DBMS_HYBRID_SEARCH mit zwei Einstiegspunkten:

  • DBMS_HYBRID_SEARCH.SEARCH gibt Ergebnisse als JSON zurück, sortiert nach Relevanz
  • DBMS_HYBRID_SEARCH.GET_SQL, das den konkreten SQL-String zurückgibt, der für die Ausführung verwendet wird

Der Hybridsuchpfad kann Folgendes ausführen:

  • reine Vektorsuche
  • reine Volltextsuche
  • kombinierte Hybridsuche

und kann relationale Filter und Verknüpfungen in den Speicher verschieben. Es unterstützt auch Strategien zur Neubewertung von Abfragen wie gewichtete Bewertungen und reziproke Rangfusion und kann auf großen Sprachmodellen basierende Neubewertungen integrieren.

Für Retrieval Augmented Era (RAG) und Agentenspeicher bedeutet dies, dass Sie eine einzige SQL-Abfrage schreiben können, die semantische Übereinstimmungen bei Einbettungen, exakte Übereinstimmungen bei Produktcodes oder Eigennamen und relationale Filterung bei Benutzer- oder Mandantenbereichen durchführt.

Particulars zur Vektor- und Volltext-Engine

Im Kern stellt seedb a zur Verfügung moderner Vektor Und Volltextstapel.

Für Vektoren, seendb:

  • unterstützt dichte Vektoren und spärliche Vektoren
  • unterstützt Manhattan-, Euklidische, innere Produkt- und Kosinus-Distanzmetriken
  • stellt im Speicher Indextypen wie HNSW, HNSW SQ, HNSW BQ bereit
  • bietet festplattenbasierte Indextypen, einschließlich IVF und IVF PQ

Der Hybrid-Vektorindex zeigt, wie Sie Rohtext speichern, seedb automatisch ein Einbettungsmodell aufrufen lassen und das System den entsprechenden Vektorindex ohne separate Vorverarbeitungspipeline verwalten lassen können.

Für Textual content bietet seedb eine Volltextsuche mit:

  • Schlüsselwort-, Phrasen- und boolesche Abfragen
  • BM25-Rating für Relevanz
  • mehrere Tokenizer-Modi

Der entscheidende Punkt ist, dass Volltext- und Vektorindizes erstklassig sind und in denselben Abfrageplaner integriert sind wie Skalarindizes und GIS-Indizes, sodass für die Hybridsuche keine externe Orchestrierung erforderlich ist.

KI-Funktionen innerhalb der Datenbank

suchdb Enthält integrierte KI-Funktionsausdrücke, mit denen Sie Modelle direkt aus SQL aufrufen können, ohne dass jeder Aufruf von einem separaten Anwendungsdienst vermittelt wird. Die Hauptfunktionen sind:

  • AI_EMBED zum Konvertieren von Textual content in Einbettungen
  • AI_COMPLETE für die Textgenerierung mithilfe eines Chat- oder Vervollständigungsmodells
  • AI_RERANK, um eine Kandidatenliste neu zu ordnen
    AI_PROMPT zum Zusammenstellen von Eingabeaufforderungsvorlagen und dynamischen Werten in einem JSON-Objekt für AI_COMPLETE

Modellmetadaten und Endpunkte werden vom DBMS_AI_SERVICE-Paket verwaltet, mit dem Sie externe Anbieter registrieren, URLs festlegen und Schlüssel konfigurieren können – alles auf der Datenbankseite.

Multimodale Daten und Workloads

suchdb ist für die Verarbeitung mehrerer Datenmodalitäten in einem Knoten ausgelegt. Es verfügt über eine multimodale Daten- und Indexierungsebene, die Vektoren, Textual content, JSON und GIS abdeckt, sowie über eine Multimodell-Rechenebene für hybride Arbeitslasten über Vektor-, Volltext- und Skalarbedingungen hinweg.

Es stellt außerdem JSON-Indizes für Metadatenabfragen und GIS-Indizes für räumliche Bedingungen bereit. Dies ermöglicht Abfragen wie:

  • semantisch ähnliche Dokumente finden
  • Filtern Sie nach JSON-Metadaten wie Mandant, Area oder Kategorie
  • durch räumlichen Bereich oder Polygon einschränken

ohne den gleichen Motor zu verlassen.

Da seedb von der OceanBase-Engine abgeleitet ist, erbt es ACID-Transaktionen, Zeilen- und Spalten-Hybridspeicher und vektorisierte Ausführung, obwohl hochskalierte verteilte Bereitstellungen weiterhin eine Aufgabe für die gesamte OceanBase-Datenbank sind.

Vergleichstabelle

Wichtige Erkenntnisse

  1. KI-native Hybridsuche: seekdb vereint Vektorsuche, Volltextsuche und relationale Filterung in einer einzigen SQL- und DBMS_HYBRID_SEARCH-Schnittstelle, sodass RAG- und Agent-Workloads den Abruf mehrerer Signale in einer Abfrage ausführen können, anstatt mehrere Engines zusammenzufügen.
  2. Multimodale Daten in einer Engine: seedb speichert und indiziert relationale Daten, Vektoren, Textual content, JSON und GIS in derselben Engine, wodurch KI-Anwendungen Dokumente, Einbettungen und Metadaten konsistent halten können, ohne separate Datenbanken zu pflegen.
  3. In Datenbank-KI-Funktionen für RAG: Mit AI_EMBED, AI_COMPLETE, AI_RERANK und AI_PROMPT kann seedb Einbettungsmodelle, LLMs und Reranker direkt aus SQL aufrufen, was RAG-Pipelines vereinfacht und mehr Orchestrierungslogik in die Datenbankebene verlagert.
  4. Einzelner Knoten, eingebettetes benutzerfreundliches Design: seedb ist eine MySQL-kompatible Einzelknoten-Engine, die eingebettete und eigenständige Modi unterstützt, während verteilte, groß angelegte Bereitstellungen weiterhin die Rolle von vollständigem OceanBase übernehmen, wodurch seedb für lokale, Edge- und Service-eingebettete KI-Workloads geeignet ist.
  5. Open-Supply- und Software-Ökosystem: seekdb ist Open Supply unter Apache 2.0 und lässt sich in ein wachsendes Ökosystem von KI-Instruments und Frameworks integrieren, mit Python-Unterstützung über pyseekdb und MCP-basierter Integration für Code-Assistenten und Agenten, sodass es als einheitliche Datenebene für KI-Anwendungen fungieren kann.

Schauen Sie sich das an Repo Und Projekt. Schauen Sie sich gerne bei uns um GitHub-Seite für Tutorials, Codes und Notebooks. Sie können uns auch gerne weiter folgen Twitter und vergessen Sie nicht, bei uns mitzumachen 100.000+ ML SubReddit und Abonnieren Unser Publication. Warten! Bist du im Telegram? Jetzt können Sie uns auch per Telegram kontaktieren.


Asif Razzaq ist CEO von Marktechpost Media Inc.. Als visionärer Unternehmer und Ingenieur setzt sich Asif dafür ein, das Potenzial der künstlichen Intelligenz für das soziale Wohl zu nutzen. Sein jüngstes Unterfangen ist die Einführung einer Medienplattform für künstliche Intelligenz, Marktechpost, die sich durch eine ausführliche Berichterstattung über maschinelles Lernen und Deep-Studying-Nachrichten auszeichnet, die sowohl technisch fundiert als auch für ein breites Publikum leicht verständlich ist. Die Plattform verfügt über mehr als 2 Millionen monatliche Aufrufe, was ihre Beliebtheit beim Publikum verdeutlicht.

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert