Synthetische Daten werden von Algorithmen künstlich generiert, um die statistischen Eigenschaften der tatsächlichen Daten nachzuahmen, ohne Informationen aus realen Quellen zu enthalten. Während konkrete Zahlen schwer zu bestimmen sind, legen einige Schätzungen nahe, dass mehr als 60 Prozent der für AI -Anwendungen verwendeten Daten im Jahr 2024 synthetisch waren und diese Zahl in der gesamten Branche wachsen wird.

Da synthetische Daten keine realen Informationen enthalten, versprechen sie, die Privatsphäre zu schützen, gleichzeitig die Kosten zu senken und die Geschwindigkeit zu erhöhen, mit der neue KI-Modelle entwickelt werden. Die Verwendung von synthetischen Daten erfordert jedoch eine sorgfältige Bewertung, Planung und Überprüfungen, um den Leistungsverlust zu verhindern, wenn KI -Modelle bereitgestellt werden.

Um einige Vor- und Nachteile der Verwendung synthetischer Daten auszupacken, MIT Nachrichten sprach mit Kalyan Veeramachaneni, einem Hauptwissenschaftler im Labor für Informations- und Entscheidungssysteme und Mitbegründer von DataceBO deren Open-Core-Plattform, das synthetische DatengewölbeAnwesend hilft Benutzer generieren und testen synthetische Daten.

Q: Wie werden synthetische Daten erstellt?

A: Synthetische Daten werden algorithmisch erzeugt, stammen jedoch nicht aus einer realen State of affairs. Ihr Wert liegt in ihrer statistischen Ähnlichkeit mit realen Daten. Wenn wir beispielsweise über Sprache sprechen, sehen synthetische Daten sehr aus, als hätte ein Mensch diese Sätze geschrieben. Während Forscher seit langem synthetische Daten erstellt haben, ist das, was in den letzten Jahren geändert wurde, unsere Fähigkeit, generative Modelle aus Daten zu erstellen und realistische synthetische Daten zu erstellen. Wir können ein wenig echte Daten aufnehmen und ein generatives Modell aus diesem erstellen, mit dem wir so viele synthetische Daten erstellen können, wie wir es möchten. Außerdem erstellt das Modell synthetische Daten auf eine Weise, die alle zugrunde liegenden Regeln und unendlichen Muster erfasst, die in den realen Daten vorhanden sind.

Es gibt im Wesentlichen vier verschiedene Datenmodalitäten: Sprache, Video oder Bilder, Audio und tabellarische Daten. Alle vier haben leicht unterschiedliche Möglichkeiten, um die generativen Modelle aufzubauen, um synthetische Daten zu erstellen. Ein LLM ist beispielsweise nichts anderes als ein generatives Modell, aus dem Sie synthetische Daten probieren, wenn Sie ihm eine Frage stellen.

Im Web sind viele Sprach- und Bilddaten öffentlich verfügbar. Tabuläre Daten, die die Daten sind, die bei der Interaktion mit physischen und sozialen Systemen gesammelt werden, werden häufig hinter Enterprise -Firewalls gesperrt. Ein Großteil davon ist sensibel oder privat, z. B. von Kundentransaktionen, die von einer Financial institution gespeichert sind. Für diese Artwork von Daten bieten Plattformen wie das synthetische Datengewölbe Software program, mit der generative Modelle erstellt werden können. Diese Modelle erstellen dann synthetische Daten, die die Privatsphäre des Kunden bewahren und weiter ausgetauscht werden können.

Eine leistungsstarke Sache an diesem generativen Modellierungsansatz zur Synthesedaten ist, dass Unternehmen jetzt ein maßgeschneidertes lokales Modell für ihre eigenen Daten erstellen können. Generative KI automatisiert, was früher ein manueller Prozess warfare.

Q: Was sind einige Vorteile bei der Verwendung von synthetischen Daten und für welche Anwendungsfälle und Anwendungen sind sie besonders intestine geeignet?

A: Eine grundlegende Anwendung, die in den letzten zehn Jahren enorm gewachsen ist, ist die Verwendung von synthetischen Daten, um Softwareanwendungen zu testen. Hinter vielen Softwareanwendungen steckt datengesteuerte Logik, daher benötigen Sie Daten, um diese Software program und ihre Funktionalität zu testen. In der Vergangenheit haben die Menschen auf manuell generierende Daten zurückgegriffen, aber jetzt können wir generative Modelle verwenden, um so viele Daten zu erstellen, wie wir benötigen.

Benutzer können auch bestimmte Daten für Anwendungstests erstellen. Sagen Sie, ich arbeite für ein E-Commerce-Unternehmen. Ich kann synthetische Daten generieren, die echte Kunden nachahmt, die in Ohio leben und Transaktionen im Zusammenhang mit einem bestimmten Produkt im Februar oder März durchgeführt haben.

Da synthetische Daten nicht aus realen Situationen stammen, sind sie auch Privatsphäre, die erbewahren. Eines der größten Probleme bei der Softwaretests warfare es, auf smart reale Daten für das Testen von Software program in Nichtproduktionsumgebungen zugreifen zu können, da Datenschutzbedenken. Ein weiterer unmittelbarer Nutzen ist bei Leistungstests. Sie können eine Milliarde Transaktionen aus einem generativen Modell erstellen und testen, wie schnell Ihr System sie verarbeiten kann.

Eine andere Anwendung, bei der synthetische Daten vielversprechend sind, ist die Schulung von maschinellen Lernmodellen. Manchmal möchten wir, dass ein KI -Modell uns hilft, ein weniger häufiges Ereignis vorherzusagen. Eine Financial institution möchte möglicherweise ein KI -Modell verwenden, um betrügerische Transaktionen vorherzusagen, aber es gibt möglicherweise zu wenige echte Beispiele, um ein Modell zu trainieren, das Betrug genau identifizieren kann. Synthetische Daten liefern Datenvergrößerung – zusätzliche Datenbeispiele, die den realen Daten ähneln. Diese können die Genauigkeit von KI -Modellen erheblich verbessern.

Manchmal haben Benutzer keine Zeit oder die finanziellen Ressourcen, um alle Daten zu sammeln. Zum Beispiel muss das Sammeln von Daten über Kundenabsichten erforderlich sein, um viele Umfragen durchzuführen. Wenn Sie nur begrenzte Daten haben und dann versuchen, ein Modell zu trainieren, wird es nicht intestine funktioniert. Sie können erweitern, indem Sie synthetische Daten hinzufügen, um diese Modelle besser zu trainieren.

Q. Was sind einige der Risiken oder potenziellen Fallstricke bei der Verwendung von synthetischen Daten, und gibt es Schritte, die Benutzer unternehmen können, um diese Probleme zu verhindern oder zu mildern?

A. Eine der größten Fragen, die Menschen oft im Kopf haben, ist, wenn die Daten synthetisch erstellt werden, warum sollte ich ihnen vertrauen? Wenn Sie feststellen, ob Sie den Daten häufig vertrauen können, bewerten Sie das Gesamtsystem, in dem Sie sie verwenden.

Es gibt viele Aspekte von synthetischen Daten, die wir seit langem bewerten konnten. Zum Beispiel gibt es vorhandene Methoden, um zu messen, wie eng synthetischer Daten an realen Daten sind, und wir können ihre Qualität messen und ob sie die Privatsphäre bewahren. Es gibt jedoch andere wichtige Überlegungen, wenn Sie diese synthetischen Daten verwenden, um ein maschinelles Lernmodell für einen neuen Anwendungsfall zu trainieren. Woher wissen Sie, dass die Daten zu Modellen führen, die immer noch gültige Schlussfolgerungen ziehen?

Es entstehen neue Wirksamkeitsmetriken, und der Schwerpunkt liegt nun auf die Wirksamkeit für eine bestimmte Aufgabe. Sie müssen sich wirklich in Ihren Workflow eintauchen, um sicherzustellen, dass die synthetischen Daten, die Sie dem System hinzufügen, weiterhin gültige Schlussfolgerungen ziehen können. Das muss sorgfältig auf Anwendung von Anwendungsbasis durchgeführt werden.

Die Verzerrung kann auch ein Downside sein. Da es aus einer kleinen Menge realer Daten erstellt wird, kann dieselbe Verzerrung, die in den realen Daten vorhanden ist, in die synthetischen Daten übertragen werden. Genau wie bei echten Daten müssten Sie absichtlich sicherstellen, dass die Verzerrung durch verschiedene Stichprobentechniken entfernt wird, wodurch ausgewogene Datensätze erstellt werden können. Es erfordert einige sorgfältige Planung, aber Sie können die Datenerzeugung kalibrieren, um die Verbreitung von Verzerrungen zu verhindern.

Um beim Bewertungsprozess zu helfen, hat unsere Gruppe die erstellt Bibliothek für synthetische Datenmetriken. Wir befürchteten, dass Menschen synthetische Daten in ihrer Umgebung verwenden würden und dies in der realen Welt unterschiedliche Schlussfolgerungen ziehen würde. Wir haben eine Metriken und eine Evaluierungsbibliothek erstellt, um Prüfungen zu gewährleisten. Die Neighborhood für maschinelles Lernen warfare mit vielen Herausforderungen konfrontiert, um sicherzustellen, dass Modelle neue Situationen verallgemeinern können. Die Verwendung synthetischer Daten fügt diesem Downside eine völlig neue Dimension hinzu.

Ich gehe davon aus, dass die alten Systeme der Arbeit mit Daten, ob Softwareanwendungen erstellt, analytische Fragen beantwortet werden oder Modelle trainieren, sich dramatisch ändern, da wir beim Aufbau dieser Generativmodelle anspruchsvoller werden. Viele Dinge, die wir noch nie zuvor tun konnten, werden jetzt möglich sein.

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert