Heute sind wir von einem Hype um KI umgeben. Quick jeden Tag werden neue KI-gestützte Instruments angekündigt. Sie behaupten, sie könnten quick alles für uns tun: unsere Autos fahren, unsere E-Mails schreiben, uns Kunstwerke schaffen. Doch selbst bei den größten und spektakulärsten Instruments – wie ChatGPT – ist unklar, ob der KI-Ansatz eine Verbesserung gegenüber dem darstellt, was er ersetzen soll. Es ist schwierig, das wirklich Nützliche von dem zu unterscheiden, was kaum mehr als Lärm ist. Das größte Drawback der KI besteht darin, ihre Versprechen zu erfüllen.

Es gibt eine Ausnahme: synthetische Daten.

Was sind synthetische Daten?

Synthetische Daten sind von KI generierte Daten, die die statistischen Eigenschaften realer Daten widerspiegeln. Indem KI-Modelle anhand realer Daten trainiert werden, können so unterschiedliche Branchen wie das Gesundheitswesen, die Fertigung, das Finanzwesen oder die Softwareentwicklung synthetische Daten generieren, die ihren jeweiligen Anforderungen gerecht werden. Wo und wann immer sie diese benötigen, in dem von ihnen gewünschten Umfang und Maßstab.

Synthetische Daten lösen mehrere Probleme. Bei der Entwicklung von KI-Modellen können synthetische Daten den Mangel an erschwinglichen, qualitativ hochwertigen Daten ausgleichen. Bei der Softwareentwicklung und beim Testen können synthetische Datensätze dabei helfen, Randfälle zu testen, komplexe Datenszenarien zu simulieren und die Qualität von Systemen unter wahrscheinlichen realen Bedingungen zu validieren. Während der Zugriff auf Stay-Produktionsdaten zu Recht eingeschränkt ist, kann dies die Innovation im gesamten Unternehmen behindern. Synthetische Daten können weitaus weniger Einschränkungen unterliegen, sodass Groups ohne unnötige Reibungsverluste entwickeln können.

Unternehmen wie AmazonGoogle und American Categorical verlassen sich bereits auf synthetische Daten, ebenso wie Organisationen wie die Der britische Nationwide Well being Service. Ihr Unternehmen/Ihre Branche könnte dies wahrscheinlich auch tun.

Synthetisch, aber nicht gefälscht

Synthetische Daten werden manchmal mit gefälschten Daten verwechselt und viele verwenden die beiden Begriffe synonym. Es handelt sich jedoch um sehr unterschiedliche Dinge. Gefälschte Daten oder Mock-Daten sind billig und einfach zu generieren. Gefälschte Daten können über Open-Supply-Bibliotheken bezogen werden, wie zum Beispiel Schwindler. Gefälschte Daten haben jedoch nicht die gleichen statistischen Eigenschaften wie echte Daten. Sie sind eher einfach und einheitlich. Wenn wir beispielsweise eine gefälschte Datenbank mit 100 Transaktionen zwischen 1 und 10.000 US-Greenback erstellen würden, wären 10 Transaktionen zwischen 1 und 1.000 US-Greenback, 10 zwischen 1.001 und 2.000 US-Greenback und so weiter. Echte Kaufdaten sind ungleichmäßig. Einige Transaktionen bilden Cluster, während andere Ausreißer sind.

Gefälschte Daten besitzen kaum oder gar keine der Eigenschaften oder Merkmale eines realen Produktionsdatensatzes. Abgesehen von einfachen Parametern wie Bereich und Datentyp ist jede Ähnlichkeit mit den realen Daten rein zufällig. Synthetische Daten hingegen werden mit statistischen Modellen und generativer KI erstellt, die anhand realer Daten trainiert wurde. Diese synthetischen Daten besitzen dieselben statistischen Eigenschaften und internen Beziehungen wie der reale Datensatz, den sie nachahmen sollen.

Obwohl sowohl gefälschte als auch synthetische Daten nützlich sind, handelt es sich dabei um völlig unterschiedliche Werkzeuge. In realen Szenarien werden diese Unterschiede sehr wichtig. Schauen wir uns zwei Beispiele an: eines aus dem On-line-Einzelhandel und eines aus der Datenwissenschaft.

Synthetische Daten zum Testen von Softwareanwendungen

Nehmen wir an, ein On-line-Händler für Sportartikel hat seine Daten analysiert und dabei einige Traits festgestellt. Er hat herausgefunden, dass er quick dreimal so viele Besucher aus Massachusetts hat wie aus jedem anderen Bundesstaat, dass ein Besucher aus MA am wahrscheinlichsten im November Schneestiefel kauft und dass der Web site-Verkehr vor Thanksgiving voraussichtlich in die Höhe schnellen wird.

Um diese Erkenntnisse zu nutzen, aktualisiert der Einzelhändler seine Web site, sodass er jedem Besucher aus Massachusetts in den drei Wochen vor Thanksgiving Schneestiefel anzeigt. Außerdem werden die Ergebnisse für Kunden angepasst, die sich für eine stärkere Personalisierung entschieden haben. So werden bestimmte Schneestiefelmodelle basierend auf der Kaufhistorie und den persönlichen Vorlieben jedes einzelnen Besuchers angezeigt.

Bevor der Einzelhändler diese Änderungen in seiner Anwendung einführt, möchte er sie testen. Er möchte auf einen Spitzenwert vorbereitet sein: Selbst wenn in diesem dreiwöchigen Zeitfenster Zehntausende von Besuchen stattfinden, sollte die Web site innerhalb von weniger als einer Millisekunde reagieren. Außerdem möchte er sicherstellen, dass die Die richtigen Stiefel werden der richtigen Particular person zur richtigen Zeit gezeigt, um die Möglichkeit eines Kaufs maximieren. Um diese Exams durchzuführen, benötigen sie Daten.

Was passiert, wenn sie gefälschte Daten verwenden? Da gefälschte Daten zufällig generiert werden, werden sie Besucher aus jedem Bundesstaat mit gleicher Häufigkeit und für jedes Datum im Jahr mit gleicher Häufigkeit generieren. Selbst wenn das Staff beschließt, Millionen gefälschter Besuche zu generieren und dann alles wegzuwerfen, was nicht aus MA und innerhalb ihres Datumsbereichs stammt, enthalten die gefälschten Daten keine Informationen zum Kaufverlauf der Kunden, um den Teil des Codes zu testen, der anpasst, welche Schneestiefel angezeigt werden sollen. In Take a look at- und Entwicklungsumgebungen sah die Leistung der Anwendung intestine aus, aber wenn echte Kunden die Web site besuchen, ist die Leistung aufgrund der in den gefälschten Daten fehlenden Clusterung langsam.

Was wäre, wenn der Einzelhändler stattdessen synthetische Daten verwenden würde? Synthetische Daten, die mithilfe eines KI-Modells generiert und mit den realen Daten des Einzelhändlers trainiert wurden, können echte Kunden emulieren. Damit lassen sich komplette Buyer Journeys erstellen, von der ersten Kontoeröffnung bis hin zu den Einkäufen der letzten zwei Jahre. ein realistischer, synthetischer Kunde.

Wenn echte Kunden Produkt A und sechs Monate später Produkt B gekauft haben, folgen die synthetischen Kunden diesem Muster. Wenn es im November einen Anstieg des Datenverkehrs aus MA gab, wird der synthetische Datensatz dies nachahmen. Mit synthetischen Daten kann der Einzelhändler Daten erstellen, die die erwarteten tatsächlichen Besuche widerspiegeln und dabei Besucherstandorte, Verkehrsspitzen und komplexe Kaufhistorien berücksichtigen. Durch Exams mit diesen Daten erhalten sie eine genauere Vorstellung davon, was sie erwarten können, und können ihre Anwendung entsprechend vorbereiten.

Moderne Softwareanwendungen werden immer dynamischer und passen ihre Ergebnisse auf der Grundlage der Daten an, die sie in Echtzeit sehen. Ihre Logik wird häufig aktualisiert und neue Versionen werden schnell bereitgestellt, manchmal mehrmals am Tag. Vor jeder Bereitstellung müssen Entwickler testen, ob die Anwendung intestine funktioniert und richtig funktioniert. Diejenigen, die synthetische Daten und nicht nur gefälschte Daten verwenden, können sich darauf verlassen, dass ihre Kunden ein großartiges Erlebnis haben und auch mehr Umsatz erzielen.

Synthetische Daten beseitigen den Analysten-Engpass

Unternehmen speichern enorme Mengen an Daten darüber, wie ihre Kunden ihre Produkte und Dienstleistungen nutzen, in der Hoffnung, dass sie daraus Erkenntnisse gewinnen, die sich positiv auf den Gewinn auswirken. Um diese Erkenntnisse zu gewinnen, beauftragen sie möglicherweise Beratungsfirmen oder freiberufliche Datenwissenschaftler oder veranstalten sogar öffentliche Datenwissenschaftswettbewerbe. Ihr Wunsch, möglichst viele Blicke auf die Daten zu lenken, steht jedoch häufig im Widerspruch zum proprietären Charakter der Daten sowie zu Datenschutzbedenken der Kunden. Auch in diesem Szenario helfen gefälschte Daten nicht weiter, da ihnen die realistischen Eigenschaften von Produktionsdaten fehlen: die internen Korrelationen und andere statistische Eigenschaften, die zu wertvollen Erkenntnissen führen.

Damit ein Datensatz reale Daten ersetzen kann, muss er dieselben analytischen Schlussfolgerungen liefern wie reale Daten. Um auf das obige Beispiel zurückzukommen: Wenn die realen Daten zeigen, dass Schneestiefel der beliebteste Kauf für Kunden aus MA sind, muss ein Analyst, der synthetische Daten verwendet, zu derselben Schlussfolgerung gelangen. Können synthetische Daten wirklich so intestine sein?

Um diese Frage systematisch zu beantworten, hat mein Staff am MIT eine Reihe von Experimenten durchgeführt.

Das erste stammt aus dem Jahr 2017, als meine Gruppe freiberufliche Datenwissenschaftler anheuerte, um im Rahmen eines Crowdsourcing-Experiments Vorhersagemodelle zu entwickeln. Wir wollten herausfinden: „Gibt es einen Unterschied zwischen der Arbeit von Datenwissenschaftlern, die synthetische Daten verwenden, und der Arbeit von Datenwissenschaftlern, die Zugriff auf reale Daten haben?

Um dies zu testen, erhielt eine Gruppe von Datenwissenschaftlern die ursprünglichen, realen Daten, während die anderen drei synthetische Versionen erhielten. Jede Gruppe verwendete ihre Daten, um ein prädiktives Modellierungsproblem zu lösen, und führte schließlich 15 Exams mit 5 Datensätzen durch. Beim Vergleich ihrer Lösungen zeigten die von der Gruppe mit realen Daten generierten Lösungen und die von den Gruppen mit synthetischen Daten generierten Lösungen in 11 von 15 Exams (70 Prozent der Zeit) keinen signifikanten Leistungsunterschied.

Seitdem sind synthetische Daten zu einem festen Bestandteil von Knowledge-Science-Wettbewerben geworden und beginnen, den Datenaustausch und die Datenanalyse für Unternehmen zu verändern. Kaggle, eine beliebte Web site für Knowledge-Science-Wettbewerbe, veröffentlicht jetzt regelmäßig synthetische Datensätzedarunter auch einige aus Unternehmen. Wells Fargo veröffentlichte einen synthetischen Datensatz für einen Wettbewerb, bei dem Datenwissenschaftler aufgefordert wurden, mutmaßlichen Betrug im Zusammenhang mit der Ausbeutung älterer Menschen vorherzusagen. Spar Nord Financial institution veröffentlicht Datensatz zur Geldwäschebekämpfung für Datenwissenschaftler, Muster zu finden, die auf Geldwäsche hinweisen.

Abschluss

Synthetische Daten sind eine nützliche Anwendung der KI-Technologie, die Kunden bereits einen echten, greifbaren Mehrwert bietet. Synthetische Daten sind mehr als bloße Pretend-Daten. Sie unterstützen datengesteuerte Geschäftssysteme während ihres gesamten Lebenszyklus, insbesondere dann, wenn ein kontinuierlicher Zugriff auf Produktionsdaten unpraktisch oder nicht ratsam ist.

Wenn Ihre Projekte durch teure und komplexe Prozesse zum Zugriff auf Produktionsdaten behindert werden oder durch die inhärenten Einschränkungen gefälschter Daten eingeschränkt sind, lohnt es sich, synthetische Daten in Betracht zu ziehen. Sie können noch heute mit der Verwendung synthetischer Daten beginnen, indem Sie eine der kostenlos verfügbaren Optionen herunterladen.

Synthetische Daten sind eine wertvolle neue Technik, die immer mehr Organisationen zu ihren datengesteuerten Workloads hinzufügen. Fragen Sie Ihre Datenteams, wo Sie synthetische Daten verwenden können, und befreien Sie sich von den Fälschern und dem Hype.

Über den Autor

Kalyan Veeramachaneni ist Mitbegründer und CEO von DatenCebodas Unternehmen für synthetische Daten, das die Produktivität von Entwicklern in Unternehmen durch den Einsatz generativer KI revolutioniert. Er ist außerdem leitender Wissenschaftler am MIT, wo er ein Forschungslabor namens Knowledge-to-AI gegründet hat und leitet, das am Schwarzman Faculty of Computing des MIT angesiedelt ist. Im Labor entwickeln sie Technologien, die die Entwicklung, Validierung und Bereitstellung groß angelegter KI-Anwendungen auf Foundation von Daten ermöglichen.

Melden Sie sich für die kostenlosen insideAI Information an Publication.

Folgen Sie uns auf Twitter: https://twitter.com/InsideBigData1

Folgen Sie uns auf LinkedIn: https://www.linkedin.com/firm/insideainews/

Folgen Sie uns auf Fb: https://www.fb.com/insideAINEWSNOW



Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert