Ihre synthetischen Daten haben jeden Take a look at bestanden und dennoch Ihr Modell kaputt gemacht

sah solide aus. Die KL-Divergenz lag deutlich innerhalb akzeptabler Bereiche. Beim Prepare on Artificial, Take a look at on Actual (TSTR)-Take a look at erreichte das Modell eine Genauigkeit von 91 %, wenn es mit den synthetischen Daten trainiert und mit den realen Daten getestet wurde, was etwas niedriger conflict als die 93 %, die bei Verwendung der tatsächlichen Daten erreicht wurden – ein Unterschied, der deutlich innerhalb der Grenzen liegt, die das Crew für die Datentoleranzen festgelegt hatte. Darüber hinaus conflict das Risiko einer Mitgliedschaftsinferenz relativ gering. Der synthetische Datensatz wurde als sicher für die Verwendung im Modelltraining für maschinelles Lernen zertifiziert; die echten Daten wurden sicher gespeichert; und das Modell wurde trainiert.

Drei Monate später konnte das Betrugserkennungsmodell jedoch die zuvor erkannten Transaktionsklassen nicht mehr fehlerfrei erkennen, was nicht nur zu Leistungseinbußen führte, sondern sogar einen völligen Ausfall zur Folge hatte. Eine ganze Gruppe von Randverhaltensweisen wurde effektiv aus der Realität des Modells entfernt.

Bei der Untersuchung des Issues konnte das Crew keine technischen Fehler bei den synthetischen Daten feststellen. Alle vom Crew ermittelten Kennzahlen haben weiterhin bestanden.

Das Downside bestand jedoch darin, dass keine dieser Kennzahlen tatsächlich misst, was wirklich wichtig ist.

Das Drei-Metrik-System und warum es Praktiker in die Irre führt

Das Dreieck aus Treue, Nutzen und Privatsphäre ist zum Standardlexikon für die Bewertung der Qualität synthetischer Daten geworden, und das aus gutem Grund. Es erfasst die drei Qualitätsaspekte, die Sie wirklich erreichen möchten: Ähneln die synthetischen Daten den realen Daten (Wiedergabetreue); Trainieren die synthetischen Daten Modelle, die sich ähnlich verhalten wie Modelle, die auf realen Daten trainiert werden (Nützlichkeit); und schützen die synthetischen Daten die Identität der Personen, von denen die Daten stammen (Privatsphäre)?

Der Rahmen selbst ist solide. Bei der Umsetzung dieses Rahmenwerks treten jedoch Probleme auf.

Die meisten Praktiker bewerten die drei Qualitätsmetriken nacheinander und betrachten den erfolgreichen Abschluss jeder einzelnen als ausreichend für den Einsatz. Dieser Ansatz ist aus drei miteinander verbundenen Gründen fehlerhaft, die einer detaillierten Erläuterung bedürfen:

Downside Nr. 1: Genauigkeitsmetriken bewerten Randverteilungen, nicht Interaktionen zwischen Options

Die am häufigsten verwendeten Genauigkeitsmetriken KL-Divergenz, Kolmogorov-Smirnov-Take a look at, Gesamtvariationsdistanz und Wasserstein-Distanz messen alle den Grad, in dem die individuelle Merkmalsverteilung im synthetischen Datensatz mit dem Authentic verglichen wird.
Keines dieser Maße beurteilt, wie Merkmale miteinander korrelieren.

Dies ist eine subtile, aber entscheidende Unterscheidung. Stellen Sie sich beispielsweise einen Gesundheitsdatensatz vor, bei dem die synthetische Model die Randverteilungen des Patientenalters und der Schwere der Erkrankung genau wiedergibt und die Randverteilungen praktisch nicht unterscheidbar erscheinen. Es gibt jedoch eine geringfügige Diskrepanz in der Korrelation zwischen den beiden Merkmalen in den synthetischen Daten. Wenn ein Modell darauf trainiert wird, identifiziert das Modell daher die entsprechenden Signale separat, aber die falsche Interaktion zwischen den Signalen.

Im Jahr 2025 wurden in einer Peer-Assessment-Studie zu synthetischen Patientendaten fünf generative Modelle anhand von drei klinischen Datensätzen evaluiert. Die Ergebnisse zeigten, dass die Randverteilungen zwar quick immer sehr ähnlich waren, sich die Korrelationswerte jedoch um 20 Punkte oder mehr unterschieden. Die nachgelagerten Auswirkungen waren dramatisch: Bei einem Datensatz ergaben Modelle, die mit synthetischen Daten trainiert wurden, Werte für die Fläche unter der Kurve (AUC) von etwa 0,80, während bei Verwendung der realen Daten AUC-Werte von etwa 0,88 erzielt wurden. Die Variable, die darüber entschied, ob es sich um Ersteres oder Letzteres handelte, conflict eher die Erhaltung der Korrelation als die Genauigkeit der Randverteilung.

Um dies zu beheben: Führen Sie KS- und KL-Exams als Foundation durch, um die Ähnlichkeit der Randverteilungen zu bestätigen. Schließen Sie immer einen Vergleich der Korrelationsmatrizen ein. Berechnen Sie die Frobenius-Norm der Differenz, um einen einzelnen Wert zu erhalten, der den Umfang der verlorenen Korrelationsstruktur darstellt. Legen Sie einen Schwellenwert für den Verlust der Korrelationsstruktur fest, bevor Sie die Daten synthetisieren, nicht danach.

import numpy as np
import pandas as pd
def correlation_drift_score(real_df: pd.DataFrame, synthetic_df: pd.DataFrame) -> float:
“””
Computes the Frobenius norm of the distinction between
actual and artificial correlation matrices.
Decrease is healthier. A rating above 0.5 warrants investigation.
“””
real_corr = real_df.corr().fillna(0).values
synth_corr = synthetic_df.corr().fillna(0).values
return np.linalg.norm(real_corr — synth_corr, ‘fro’)
rating = correlation_drift_score(real_df, synthetic_df)
print(f”Correlation Drift Rating: {rating:.4f}”)

Eine Nummer. Führen Sie es jedes Mal aus. Wenn es über Ihrem Schwellenwert liegt, kehren Sie zum Generator zurück, bevor Sie etwas anderes tun.

Downside 2: TSTR-Utility-Scores verbergen das Tail-Verhalten, wenn sie nur die durchschnittliche Leistung darstellen

„Prepare on Artificial Information, Take a look at on Actual Information“ ist eine der „Goldstandards“-Nutzungsmetriken und verdient den Ruf, den sie erworben hat. Ein Modell anhand synthetischer Daten zu trainieren und sicherzustellen, dass es anhand realer Daten intestine funktioniert, ist sicherlich ein aussagekräftiger Beweis für die Nützlichkeit.

Allerdings basieren die TSTR-Werte auf Durchschnittswerten. Somit verbergen sie genau das, was in der Produktion kaputt gehen wird. Im Betrugserkennungsbeispiel am Anfang dieses Artikels betrug die Gesamt-TSTR-AUC 91 %, aber als die Leistung nach Dezil des Transaktionsvolumens aufgeschlüsselt wurde, sank das Dezil mit der niedrigsten Leistung (die seltensten Transaktionen mit dem höchsten Wert) auf 67 % (die synthetischen Daten generierten häufige Transaktionen sehr genau; die seltensten oder ungewöhnlichsten Szenarien stellten die synthetischen Daten jedoch nicht so genau dar). Daher lernte das Modell, das anhand synthetischer Daten trainiert wurde, die häufigsten Verhaltensweisen mit äußerster Genauigkeit und das am wenigsten häufige Verhalten mit geringer Genauigkeit.

Dies ist das Tail-Loss-Downside. Es wird in der Modellkollaps-Literatur formal behandelt (Alemohammad et al., 2024, ICLR) und kann auf jede Artwork von synthetischem Datengenerierungsprozess angewendet werden: Generative Modelle, die für die Generierung von Bereichen der Verteilung mit hoher Wahrscheinlichkeit optimiert sind, repräsentieren seltene Ereignisse zunehmend unterrepräsentiert. Der synthetische Datengenerator versucht nicht, seltene Ereignisse zu unterrepräsentieren – er stellt lediglich die Mathematik dar, wie diese Modelle lernen.

Repair: Melden Sie den TSTR nicht auf aggregierter Foundation. Geben Sie den TSTR separat für jedes Dezil an, in das Sie Ihre Zielvariable geschichtet haben. Die Dezile, in denen die synthetisch trainierte Leistung am stärksten von der actual trainierten Leistung abweicht, zeigen Ihnen genau an, welche Dezile Ihre synthetischen Daten nicht genau wiedergeben.

from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import roc_auc_score
import pandas as pd
import numpy as np
def tstr_by_decile(
real_train: pd.DataFrame,
synthetic_train: pd.DataFrame,
real_test: pd.DataFrame,
target_col: str,
n_deciles: int = 10
) -> pd.DataFrame:
“””
Runs TSTR analysis stratified by deciles of the goal variable.
Returns a comparability dataframe for actual vs artificial coaching efficiency.
“””
outcomes = ()
real_test = real_test.copy()
real_test(‘decile’) = pd.qcut(
real_test(target_col), q=n_deciles, labels=False, duplicates=’drop’
)
feature_cols = (c for c in real_train.columns if c != target_col)
for label, train_df in ((“Actual”, real_train), (“Artificial”, synthetic_train)):
clf = RandomForestClassifier(n_estimators=100, random_state=42)
clf.match(train_df(feature_cols), train_df(target_col))
for decile_id, group in real_test.groupby(‘decile’):
if len(group(target_col).distinctive()) < 2:
proceed
rating = roc_auc_score(
group(target_col),
clf.predict_proba(group(feature_cols))(:, 1)
)
outcomes.append({
‘Prepare Supply’: label,
‘Decile’: decile_id,
‘AUC-ROC’: spherical(rating, 4)
})
return pd.DataFrame(outcomes).pivot(
index=’Decile’, columns=’Prepare Supply’, values=’AUC-ROC’
)
decile_results = tstr_by_decile(real_train, synthetic_train, real_test, ‘fraud_flag’)
print(decile_results)

Downside 3: Datenschutzmetriken sollten alle Funktionen gleich behandeln, obwohl dies nicht der Fall sein sollte.

Das Risiko einer Mitgliedschaftsinferenz ist die häufigste Datenschutzmetrik. Das Risiko einer Mitgliedschaftsinferenz stellt eine Frage: Kann ein Angreifer feststellen, ob ein bestimmter Datensatz im Trainingsdatensatz vorhanden ist? Niedrige Werte sind wirklich gute Nachrichten.

Dies wird jedoch auf Datensatzebene gemessen und misst daher das Risiko, einen Datensatz als Ganzes zu identifizieren. Die riskantere Angriffsart ist die Attributinferenz; Kann ein Angreifer anhand öffentlich verfügbarer Informationen über die Merkmale einer Particular person ein sensibles Attribut in den synthetischen Daten identifizieren? Dies ist das Angriffsmodell, mit dem sich die Aufsichtsbehörden im Rahmen des DSGVO-Requirements zur Neuidentifizierung befassen, und es funktioniert auf der Kombinationsebene (nicht auf der Datensatzebene).

Ein Consensus Privateness Metrics Framework (Pilgram et al., 2025) definiert drei verschiedene Arten von Risiken: Herausgreifen (Identifizieren einer einzelnen Particular person), Verknüpfbarkeit (Datensätze über Datensätze hinweg verknüpfen) und Rückschluss (Ableiten sensibler Attribute aus Kombinationen von Quasi-Identifikatoren). Praktiker messen quick ausschließlich den ersten Typ (Singling Out). Die dritte Artwork von Risiko (Inferenz) ist der Bereich, in dem tatsächlich vertrauliche Daten verloren gehen und der für die standardmäßige Mitglieder-Inferenzbewertung völlig unsichtbar ist.

Repair: Priorisieren Sie Ihre Funktionen vor der Synthese basierend auf der Empfindlichkeit. Kategorisieren Sie sie in öffentlich (Merkmale, die ohne Einschränkung in die synthetischen Daten einbezogen werden können), Quasi-Identifikatoren (Kombinationen öffentlicher Merkmale, die eine Verknüpfung ermöglichen können) und sensibel (die Attribute, die Sie schützen möchten). Messen Sie das Risiko der Mitgliedschaftsinferenz nur für die sensiblen Options und beziehen Sie nicht den gesamten Datensatz mit ein. Führen Sie als Nächstes einen Attributinferenztest durch: Trainieren Sie ein externes Modell, um jedes smart Merkmal basierend auf den Quasi-Identifikatoren mithilfe synthetischer Daten vorherzusagen. Vergleichen Sie die Genauigkeit des trainierten Modells mit einem Modell, das darauf trainiert wurde, jedes smart Merkmal auf der Grundlage derselben Quasi-Identifikatoren, aber unter Verwendung zurückgehaltener Daten vorherzusagen. Wenn der Genauigkeitsunterschied gering ist, sind Ihre synthetischen Daten verloren gegangen.

from sklearn.ensemble import GradientBoostingClassifier
def attribute_inference_risk(
synthetic_df: pd.DataFrame,
real_test_df: pd.DataFrame,
quasi_identifiers: record,
sensitive_feature: str
) -> dict:
“””
Estimates attribute inference threat by checking how nicely
a mannequin educated on artificial information predicts a delicate function
utilizing solely quasi-identifiers.
Excessive accuracy on actual take a look at information = artificial information is leaking
details about the delicate attribute.
“””
clf = GradientBoostingClassifier(random_state=42)
clf.match(synthetic_df(quasi_identifiers), synthetic_df(sensitive_feature))
real_accuracy = clf.rating(
real_test_df(quasi_identifiers),
real_test_df(sensitive_feature)
)
majority_class_accuracy = (
real_test_df(sensitive_feature).value_counts(normalize=True).max()
)
elevate = real_accuracy — majority_class_accuracy
return {
“inference_accuracy_on_real”: spherical(real_accuracy, 4),
“baseline_accuracy”: spherical(majority_class_accuracy, 4),
“inference_lift”: spherical(elevate, 4),
“risk_level”: “HIGH” if elevate > 0.10 else “MODERATE” if elevate > 0.05 else “LOW”
}
threat = attribute_inference_risk(
synthetic_df, real_test_df,
quasi_identifiers=(‘age_band’, ‘area’, ‘employment_status’),
sensitive_feature=’income_bracket’
)
print(threat)

Wenn Sie für die Steigerung einen „über 0,10“ (oder eine beliebige andere Zahl) sehen, bedeutet dies, dass Ihr synthetischer Datensatz die sensiblen Attribute Ihrer Benutzer besser identifizieren kann als der Zufall. Es spielt keine Rolle, ob Ihr Membership Inference Rating (MIS) unter 0,10 oder einem anderen Schwellenwert liegt; das ist irrelevant.

Das einheitliche Bewertungsrahmenwerk

Wie bereits erwähnt, handelt es sich bei diesen drei Herausforderungen im Wesentlichen um eine Herausforderung: Sie ergeben sich jeweils aus der Verwendung von Metriken zur Bewertung der Merkmale eines Datensatzes und der anschließenden Verwendung derselben Metriken als Grundlage für die Zertifizierung eines Datensatzes für den Produktionseinsatz. Das sind zwei sehr unterschiedliche Aufgaben.

Nachfolgend finden Sie eine vollständige Checkliste der Bewertungen, die die einzelnen Bewertungslücken schließen:

Dimension, Standardmetrik, was es vermisst und erweiterte Prüfung

Treue

KL-Divergenz, KS-Take a look at
Korrelationsstruktur zwischen Options
Korrelationsdrift-Rating (Frobenius-Norm)

Dienstprogramm

TSTR durchschnittliche AUC
Tail-Efficiency bei seltenen Ereignissen
TSTR stratifiziert nach Zieldezil

Privatsphäre

Risiko einer Mitgliedschaftsinferenz
Attributinferenz über Quasi-Identifikatoren
Attribut-Inferenz-Carry-Take a look at

Der richtige Schwellenwert hängt von Ihrem Anwendungsfall ab

Der am meisten übersehene Aspekt des Runden Tisches zwischen FCA, ICO und Alan Turing Institute zur Validierung synthetischer Daten conflict dieser: „Null Risiko = Null Nutzen.“ Synthetische Daten können nicht vollständig privat und gleichzeitig ebenso nützlich sein. Die Frage lautet nicht mehr: „Gehen die Daten weiter?“ Die Frage lautet: „Erfüllen die Kompromisse die Anforderungen der Anwendungsfälle?“

Die synthetischen Daten, die für interne QS-Exams einer Anwendung verwendet werden, erfordern eine hohe Wiedergabetreue und strukturelle Genauigkeit. Da der Zugriff auf die Daten jedoch kontrolliert wird, wird der Datenschutz weniger groß geschrieben.

Andererseits müssen die Daten, die Sie an externe Benutzer, organisationsübergreifend, an Aufsichtsbehörden oder zu Forschungszwecken weitergeben, über höhere Datenschutzgarantien verfügen. In solchen Fällen können Sie eine geringere statistische Genauigkeit der synthetischen Daten akzeptieren.

Definieren Sie daher bei der Entwicklung Ihres Bewertungsrahmens den Anwendungsfall, bevor Sie Ihre synthetischen Daten auswerten. Beantworten Sie die folgenden Fragen, bevor Sie synthetische Daten generieren:

1) Wer hat unter welchen Bedingungen Zugriff auf diesen synthetischen Datensatz? Dies legt Ihren Schwellenwert für den Datenschutz fest.

2) Welche nachgelagerte Aufgabe werden diese Daten trainieren oder testen? Dies definiert die Nutzmetriken, die sich auf Tragfähigkeit und Lärm auswirken.

3) Sind für die nachgelagerte Aufgabe Funktionen erforderlich? Wenn ja, definiert dies, wo Sie die Treue wahren müssen und wo Sie Abweichungen tolerieren können.

Legen Sie diese Schwellenwerte basierend auf Ihren Antworten auf die oben genannten Fragen fest, bevor Sie die Synthese durchführen. Führen Sie Ihre Auswertungen anhand Ihrer festgelegten Schwellenwerte durch (nicht der vom Instrument standardmäßig gemeldeten Schwellenwerte).

Fazit: Die Qualitätslücke ist eine Messlücke

Das Betrugserkennungsmodell scheiterte nicht daran, dass die synthetischen Daten unzureichend waren. Das Modell scheiterte, weil das Crew die falschen Eigenschaften bewertete und aufgrund der korrekten Messungen falsche Schlussfolgerungen zog. Treue, Nützlichkeit und Privatsphäre sind die richtigen Dimensionen.

Die Standardmetriken innerhalb jeder Dimension sind gute Ausgangspunkte. Sie wurden jedoch zur Messung und Beschreibung von Daten entwickelt und nicht zur Zertifizierung von Daten für den Produktionsgebrauch. Um diese Messlücke zu schließen, sind drei zusätzliche Bewertungen erforderlich, die die Lücken in den Standardmetriken identifizieren; Korrelationsdrift, Endnutzen professional Dezil und Attributinferenzrisiko.

Für diese drei Beurteilungen sind keine speziellen Instruments erforderlich. Die drei in diesem Artikel beschriebenen Implementierungen laufen im Commonplace-Scikit-Be taught und NumPy. Die schwierige Arbeit besteht nicht darin, den Code zu schreiben, sondern darin, die richtigen Fragen zu stellen, bevor Sie Ihr Modell in Produktion bringen.

Ihre synthetischen Daten haben jeden Take a look at bestanden und dennoch Ihr Modell kaputt gemacht

Das Drei-Metrik-System und warum es Praktiker in die Irre führt

Downside Nr. 1: Genauigkeitsmetriken bewerten Randverteilungen, nicht Interaktionen zwischen Options

Downside 2: TSTR-Utility-Scores verbergen das Tail-Verhalten, wenn sie nur die durchschnittliche Leistung darstellen

Downside 3: Datenschutzmetriken sollten alle Funktionen gleich behandeln, obwohl dies nicht der Fall sein sollte.

Das einheitliche Bewertungsrahmenwerk

Dimension, Standardmetrik, was es vermisst und erweiterte Prüfung

Der richtige Schwellenwert hängt von Ihrem Anwendungsfall ab

Fazit: Die Qualitätslücke ist eine Messlücke

Von admin

Schreibe einen Kommentar Antworten abbrechen

Versäumt

7 spezifische unkonventionelle Dinge, die man mit Sprachmodellen machen kann

Ihre synthetischen Daten haben jeden Take a look at bestanden und dennoch Ihr Modell kaputt gemacht

Aufschlüsselung des AI Engineering Hub: 10 Agentenprojekte, die Sie heute forken können

Verwendung eines lokalen LLM als Zero-Shot-Klassifikator

About

Categories

Tags

Recent Post

7 spezifische unkonventionelle Dinge, die man mit Sprachmodellen machen kann

Ihre synthetischen Daten haben jeden Take a look at bestanden und dennoch Ihr Modell kaputt gemacht

Das Drei-Metrik-System und warum es Praktiker in die Irre führt

Downside Nr. 1: Genauigkeitsmetriken bewerten Randverteilungen, nicht Interaktionen zwischen Options

Downside 2: TSTR-Utility-Scores verbergen das Tail-Verhalten, wenn sie nur die durchschnittliche Leistung darstellen

Downside 3: Datenschutzmetriken sollten alle Funktionen gleich behandeln, obwohl dies nicht der Fall sein sollte.

Das einheitliche Bewertungsrahmenwerk

Dimension, Standardmetrik, was es vermisst und erweiterte Prüfung

Der richtige Schwellenwert hängt von Ihrem Anwendungsfall ab

Fazit: Die Qualitätslücke ist eine Messlücke

Von admin

Ähnlicher Beitrag

Schreibe einen Kommentar Antworten abbrechen

Versäumt