Von KI und datengesteuerten Projekten wurde die Bedeutung von Daten und ihrer Qualität als kritisch für den Erfolg eines Projekts anerkannt. Einige mögen sogar sagen, dass Projekte früher einen einzelnen Ausfallpunkt hatten: Daten!

Die berüchtigten „Müll in, Müll raus“ battle wahrscheinlich der erste Ausdruck, der die Datenindustrie im Sturm eroberte (von „Daten ist das neue Öl“). Wir alle wussten, ob Daten nicht intestine strukturiert, gereinigt und validiert waren.

Aus diesem Grund konzentrierten sich im Laufe der Jahre zahlreiche Studien und Forscher auf die Definition der Säulen der Datenqualität und welche Metriken zur Bewertung verwendet werden können.

A 1991 Forschungspapier Identifizierte 20 verschiedene Datenqualitätsabmessungen, die alle sehr auf den Hauptaugenmerk und die zu diesem Zeitpunkt strukturierten Datenbanken ausgerichtet waren. Schneller Vorlauf zu 2020, das Forschungsarbeiten über die Dimensionen der Datenqualität (DDQ)identifizierte eine erstaunliche Anzahl von Datenqualitätsdimensionen (ca. 65 !!), was nicht nur widerspiegelte, wie sich die Datenqualitätsdefinition ständig weiterentwickelt, sondern auch, wie Daten selbst verwendet wurden.

Dimensionen der Datenqualität: Auf dem Weg zu Qualitätsdaten nach Design, 1991 Wang

Mit dem Anstieg des Hype mit tiefem Lernen battle die Idee, dass die Datenqualität nicht mehr wichtig battle, in den Köpfen der technisch versierten Ingenieure. Der Wunsch zu glauben, dass Fashions und Engineering allein ausreichten, um leistungsstarke Lösungen zu liefern, gibt es schon seit einiger Zeit. Glücklich für uns, begeisterte DatenpraktikerAnwesend 2021/2022 markierte den Aufstieg von Datenzentrierte AI! Dieses Konzept ist nicht weit vom Klassiker entfernt „Müll in, Müll aus“verstärkt die Idee, dass wir in der KI -Entwicklung Daten als Component der Gleichung behandeln, die optimiert werden muss, werden wir eine bessere Leistung und Ergebnisse erzielen als die Modelle allein (UPS! Immerhin dreht sich nicht alles um Hyperparameter -Tuning).

Warum können wir die Gerüchte wieder hören, dass Daten keinen Wassergraben haben?!

Die Kapazität von großer Sprachmodellen (LLMS), die menschliche Argumentation widerspiegeln, hat uns verblüfft. Da sie in einer immensen Korpora in Kombination mit der Rechenleistung von GPUs geschult sind, können LLMs nicht nur gute Inhalte erzeugen, sondern tatsächlich Inhalt, die unserem Ton und unserer Denkweise ähneln können. Weil sie es so bemerkenswert intestine machen, und oft mit einem minimalen Kontext, hatte dies viele zu einer mutigen Schlussfolgerung geführt:

„Daten haben keinen Wassergraben.“
„Wir brauchen keine proprietären Daten mehr, um zu differenzieren.“
„Verwenden Sie einfach ein besseres Modell.“

Ist die Datenqualität eine Likelihood gegen LLM- und AI -Agenten?

Meiner Meinung nach – absolut ja! Unabhängig von den aktuellen Überzeugungen, dass Daten im Alter von LLMs und AI -Agenten keine Differenzierung darstellen, bleiben die Daten wesentlich. Ich werde sogar herausfordern, indem ich sagen soll, dass die fähigeren und verantwortlicheren Agenten ihre Abhängigkeit von guten Daten noch kritischer werden!

Warum ist die Datenqualität noch wichtig?

Beginnend mit dem offensichtlichsten Müll, Müll aus. Es spielt keine Rolle, wie viel schlauer Ihre Modelle und Agenten bekommen, wenn sie den Unterschied zwischen Intestine und Schlecht nicht erkennen können. Wenn schlechte Daten oder Eingaben von geringer Qualität in das Modell eingespeist werden, erhalten Sie falsche Antworten und irreführende Ergebnisse. LLMs sind generative Modelle, was bedeutet, dass sie letztendlich einfach Muster reproduzieren, denen sie begegnet sind. Was mehr denn je besorgt als je zuvor ist, dass die Validierungsmechanismen, auf die wir uns einmal verlassen haben, in vielen Anwendungsfällen nicht mehr vorhanden sind, was zu potenziell irreführenden Ergebnissen führt.

Darüber hinaus haben diese Modelle kein Bewusstsein in der realen Welt, ähnlich wie bei anderen bisher dominierenden generativen Modellen. Wenn etwas veraltet oder sogar Vorurteile ist, werden sie es einfach nicht erkennen, es sei denn, sie sind dafür geschult, und das beginnt mit hochwertigen, validierten und sorgfältig kuratierten Daten.

Insbesondere, wenn es um KI -Agenten geht, die häufig auf Instruments wie Speicher oder Dokumentenabruf angewiesen sind, um Aktivitäten über Aktivitäten hinweg zu arbeiten, ist die Bedeutung großer Daten noch offensichtlicher. Wenn ihr Wissen auf unzuverlässigen Informationen basiert, können sie keine gute Entscheidungsfindung durchführen. Sie erhalten eine Antwort oder ein Ergebnis, aber das bedeutet nicht, dass es nützlich ist!

Warum sind Daten immer noch ein Wassergraben?

Während Hindernisse wie Computerinfrastruktur, Speicherkapazität sowie spezialisiertes Fachwissen als related erwähnt werden, um in einer Zukunft wettbewerbsfähig zu bleiben, die von AI -Agenten und LLM -basierten Anwendungen dominiert wird, werden sie wettbewerbsfähig. Die Zugänglichkeit der Daten ist nach wie vor eine der am häufigsten als Paramount für die Wettbewerbsfähigkeit zitierte. Hier ist der Grund:

  1. Zugang ist Strom
    In Domänen mit eingeschränkten oder proprietären Daten wie Gesundheitswesen, Anwälten, Unternehmens -Workflows oder sogar Benutzerinteraktionsdaten können KI -Agenten nur von Personen mit privilegiertem Zugriff auf Daten erstellt werden. Ohne sie fliegen die entwickelten Anwendungen blind.
  2. Das öffentliche Internet wird nicht genug sein
    Kostenlose und reichlich vorhandene öffentliche Daten verblassen, nicht weil sie nicht mehr verfügbar sind, sondern weil es schnell verblasst. Hochwertige öffentliche Datensätze wurden stark mit mit Algorithmen generierten Daten abgebaut, und einige der übrig bleiben entweder hinter Paywalls oder durch API-Beschränkungen geschützt.
    Darüber hinaus schließen die Hauptplattform den Zugang zugunsten der Monetarisierung zunehmend ab.
  3. Datenvergiftung ist der neue Angriffsvektor
    Wenn die Einführung von Grundmodellen wächst, verlagern sich die Angriffe vom Modellcode zum Coaching und der Feinabstimmung des Modells selbst. Warum? Es ist einfacher zu tun und schwerer zu erkennen!
    Wir treten in eine Ära ein, in der Gegner das System nicht brechen müssen, sondern nur die Daten verschmutzen müssen. Von subtiler Fehlinformationen bis hin zu böswilliger Kennzeichnung sind Datenvergiftungsangriffe eine Realität, auf die Organisationen, auf die AI -Agenten adoptiert werden, vorbereitet werden müssen. Die Steuerung von Datenorschinen, Pipeline und Integrität ist jetzt für den Aufbau einer vertrauenswürdigen KI von wesentlicher Bedeutung.

Was sind die Datenstrategien für vertrauenswürdige KI?

Um der Innovation voraus zu sein, müssen wir überdenken, wie Daten behandelt werden können. Daten sind nicht mehr nur ein Component des Prozesses, sondern eine Kerninfrastruktur für die KI. Bauen und Bereitstellen von KI betreffen Code und Algorithmen, aber auch den Datenlebenszyklus: Wie er gesammelt, filtriert und gereinigt, geschützt und vor allem verwendet wird. Was sind die Strategien, die wir anwenden können, um Daten besser zu nutzen?

  1. Datenmanagement als Kerninfrastruktur
    Behandeln Sie Daten mit der gleichen Relevanz und Priorität wie die Cloud -Infrastruktur oder -versicherung. Dies bedeutet, die Governance zu zentralisieren, Zugriffskontrollen zu implementieren und sicherzustellen, dass die Datenströme nachvollziehbar und prüfbar sind. AI-fähige Organisationen entwerfen Systeme, bei denen Daten ein absichtlicher, verwalteter Enter sind, kein nachträglicher Gedanke.
  2. Aktive Datenqualitätsmechanismen
    Die Qualität Ihrer Daten definiert, wie zuverlässig und leistungsfähig Ihre Agenten sind! Legen Sie Pipelines fest, die automatisch Anomalien oder unterschiedliche Aufzeichnungen erkennen, die Kennzeichnungsstandards durchsetzen und die Drift oder Kontamination überwachen. Information Engineering ist die Zukunft und grundlegend für KI. Daten müssen nicht nur gesammelt werden, sondern vor allem kuratiert!
  3. Synthetische Daten zum Schließen von Lücken und zur Erhaltung der Privatsphäre
    Wenn reale Daten begrenzt, voreingenommen oder Privatsphäre sensitiv sind, Synthetische Daten bieten eine leistungsstarke Various. Von der Simulation bis zur generativen Modellierung ermöglichen Sie synthetischen Daten, dass Sie hochwertige Datensätze zum Coaching von Modellen erstellen. Es ist der Schlüssel, um Szenarien freizuschalten, in denen die Grundwahrheit teuer oder eingeschränkt ist.
  4. Defensivdesign gegen Datenvergiftung
    Die Sicherheit in AI beginnt jetzt an der Datenschicht. Implementieren Sie Maßnahmen wie Quellenüberprüfung, Versioning und Echtzeitvalidierung, um sich vor Vergiftungen und subtiler Manipulation zu schützen. Nicht nur für die Datenquellen, sondern auch für Eingabeaufforderungen, die die Systeme eingeben. Dies ist besonders wichtig für das Lernen von Systemen durch Benutzereingaben oder externe Datenfeeds.
  5. Datenfeedback -Schleifen
    Daten sollten in Ihren KI -Systemen nicht als unveränderlich angesehen werden. Es sollte in der Lage sein, sich im Laufe der Zeit zu entwickeln und sich anzupassen! Suggestions -Schleifen sind obligatorisch, um ein Gefühl der Evolution zu schaffen, wenn es um Daten geht. In Kombination mit starken Qualitätsfiltern machen diese Schleifen Ihre KI-basierten Lösungen im Laufe der Zeit intelligenter und besser ausgerichtet.

Zusammenfassend ist Daten der Wassergraben und die Zukunft der Defensivität der AI -Lösung. Die datenzentrierte KI ist wichtiger denn je, auch wenn der Hype etwas anderes sagt. Sollte KI additionally nur um den Hype gehen? Nur die Systeme, die tatsächlich die Produktion erreichen, können über mich hinaussehenT.

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert