Pydantic-Leistung: 4 Tipps zur effizienten Validierung großer Datenmengen

sind so einfach zu bedienen, dass man sie auch leicht falsch verwenden kann, etwa wenn man einen Hammer am Kopf hält. Das Gleiche gilt für Pydantic, eine leistungsstarke Datenvalidierungsbibliothek für Python.

In Pydantic v2 ist die Kernvalidierungs-Engine implementiert RostDamit ist es eine der schnellsten Datenvalidierungslösungen im Python-Ökosystem. Dieser Leistungsvorteil wird jedoch nur dann realisiert, wenn Sie Pydantic auf eine Weise verwenden, die diesen hochoptimierten Kern tatsächlich nutzt.

Dieser Artikel konzentriert sich auf die effiziente Nutzung von Pydantic, insbesondere bei der Validierung großer Datenmengen. Wir heben vier häufige Fallstricke hervor, die zu Leistungsunterschieden in der Größenordnung führen können, wenn sie nicht aktiviert werden.

1) Bevorzugen `Annotated` Einschränkungen für Feldvalidatoren

Ein Kernmerkmal von Pydantic besteht darin, dass die Datenvalidierung deklarativ in einer Modellklasse definiert wird. Wenn ein Modell instanziiert wird, analysiert und validiert Pydantic die Eingabedaten entsprechend den für diese Klasse definierten Feldtypen und Validatoren.

Der naive Ansatz: Feldvalidatoren

Wir verwenden a @field_validator um Daten zu validieren, z. B. um zu prüfen, ob eine id Spalte ist tatsächlich eine Ganzzahl oder größer als Null. Dieser Stil ist lesbar und flexibel, geht jedoch mit Leistungseinbußen einher.

class UserFieldValidators(BaseModel):
    id: int
    electronic mail: EmailStr
    tags: listing(str)

    @field_validator("id")
    def _validate_id(cls, v: int) -> int:
        if not isinstance(v, int):
            increase TypeError("id have to be an integer")
        if v < 1:
            increase ValueError("id have to be >= 1")
        return v

    @field_validator("electronic mail")
    def _validate_email(cls, v: str) -> str:
        if not isinstance(v, str):
            v = str(v)
        if not _email_re.match(v):
            increase ValueError("invalid electronic mail format")
        return v

    @field_validator("tags")
    def _validate_tags(cls, v: listing(str)) -> listing(str):
        if not isinstance(v, listing):
            increase TypeError("tags have to be an inventory")
        if not (1 <= len(v) <= 10):
            increase ValueError("tags size have to be between 1 and 10")
        for i, tag in enumerate(v):
            if not isinstance(tag, str):
                increase TypeError(f"tag({i}) have to be a string")
            if tag == "":
                increase ValueError(f"tag({i}) should not be empty")

Der Grund dafür ist, dass Feldvalidatoren in ausgeführt werden Python, nach Kerntyp-Zwang und Einschränkungsvalidierung. Dies verhindert, dass sie optimiert oder in die Kernvalidierungspipeline integriert werden.

Der optimierte Ansatz: `Annotated`

Wir können verwenden Annotated von Python typing Bibliothek.

class UserAnnotated(BaseModel):
    id: Annotated(int, Discipline(ge=1))
    electronic mail: Annotated(str, Discipline(sample=RE_EMAIL_PATTERN))
    tags: Annotated(listing(str), Discipline(min_length=1, max_length=10))

Diese Model ist kürzer, klarer und zeigt eine schnellere Ausführung im großen Maßstab.

Warum `Annotated` ist schneller

Annotated (PEP 593) ist eine Normal-Python-Funktion von typing Bibliothek. Die darin platzierten Einschränkungen Annotated werden in das interne Schema von Pydantic kompiliert und im Pydantic-Core (Rust) ausgeführt.

Dies bedeutet, dass während der Validierung keine benutzerdefinierten Python-Validierungsaufrufe erforderlich sind. Außerdem werden keine Python-Zwischenobjekte oder benutzerdefinierten Kontrollflüsse eingeführt.

Im Gegensatz dazu @field_validator Funktionen stets Wenn sie in Python ausgeführt werden, führen sie zu einem Funktionsaufruf-Overhead und häufig zu doppelten Prüfungen, die bei der Kernvalidierung hätten durchgeführt werden können.

Wichtige Nuance

Eine wichtige Nuance ist das Annotated selbst ist nicht „Rust“. Die Beschleunigung entsteht durch die Verwendung von Einschränkungen, die Pydantic-Core versteht und verwenden kann, nicht durch Annotated für sich allein existierend.

Benchmark

Der Unterschied zwischen keine Validierung Und <sturdy>Annotated</sturdy> Validierung ist in diesen Benchmarks vernachlässigbar, während Python-Validatoren einen Unterschied in der Größenordnung ausmachen können.

Validierungsleistungsdiagramm (Bild vom Autor)

                    Benchmark (time in seconds)                     
┏━━━━━━━━━━━━━━━━┳━━━━━━━━━━━┳━━━━━━━━━━┳━━━━━━━━━━━┳━━━━━━━━━━━┓
┃ Methodology         ┃     n=100 ┃     n=1k ┃     n=10k ┃     n=50k ┃
┡━━━━━━━━━━━━━━━━╇━━━━━━━━━━━╇━━━━━━━━━━╇━━━━━━━━━━━╇━━━━━━━━━━━┩
│ FieldValidators│     0.004 │    0.020 │     0.194 │     0.971 │
│ No Validation  │     0.000 │    0.001 │     0.007 │     0.032 │
│ Annotated      │     0.000 │    0.001 │     0.007 │     0.036 │
└────────────────┴───────────┴──────────┴───────────┴───────────┘

In absoluten Zahlen erreichen wir eine Validierungszeit von quick einer Sekunde auf 36 Millisekunden. Eine Leistungssteigerung um quick das 30-fache.

Urteil

Verwenden Annotated wann immer möglich. Du bekommst bessere Leistung Und klarere Modelle. Benutzerdefinierte Validatoren sind leistungsstark, aber Sie zahlen für diese Flexibilität in den Laufzeitkosten, additionally reservieren Sie @field_validator für Logik, die nicht als Einschränkungen ausgedrückt werden kann.

Pydantic-Leistung: 4 Tipps zur effizienten Validierung großer Datenmengen

1) Bevorzugen `Annotated` Einschränkungen für Feldvalidatoren

Der naive Ansatz: Feldvalidatoren

Der optimierte Ansatz: `Annotated`

Warum `Annotated` ist schneller

Benchmark

Urteil

2). Validieren Sie JSON mit `model_validate_json()`

Der naive Ansatz

Der optimierte Ansatz

Warum das schneller ist

Benchmarked

Urteil

3) Verwendung `TypeAdapter` zur Massenvalidierung

Der naive Ansatz

Optimierter Ansatz

Warum das schneller ist

Benchmarked

Urteil

4) Vermeiden `from_attributes` es sei denn, Sie brauchen es

Warum `from_attributes=True` ist langsamer

Benchmark

Urteil

Abschluss

Von admin

Schreibe einen Kommentar Antworten abbrechen

Versäumt

Vermeiden Sie häufige Fehler beim Anhängen von B2B-Daten: Ein Leitfaden für Führungskräfte

Nano Banana 2 ist da! Kleiner, schneller, günstiger

5 nützliche Python-Skripte für automatisierte Datenqualitätsprüfungen

Entwerfen von Daten- und KI-Systemen, die in der Produktion bestehen

About

Categories

Tags

Recent Post

Vermeiden Sie häufige Fehler beim Anhängen von B2B-Daten: Ein Leitfaden für Führungskräfte

Nano Banana 2 ist da! Kleiner, schneller, günstiger

1) Bevorzugen Annotated Einschränkungen für Feldvalidatoren

Der naive Ansatz: Feldvalidatoren

Der optimierte Ansatz: Annotated

Warum Annotated ist schneller

Benchmark

Urteil

2). Validieren Sie JSON mit model_validate_json()

Der naive Ansatz

Der optimierte Ansatz

Warum das schneller ist

Benchmarked

Urteil

3) Verwendung TypeAdapter zur Massenvalidierung

Der naive Ansatz

Optimierter Ansatz

Warum das schneller ist

Benchmarked

Urteil

4) Vermeiden from_attributes es sei denn, Sie brauchen es

Warum from_attributes=True ist langsamer

Benchmark

Urteil

Abschluss

Von admin

Ähnlicher Beitrag

Schreibe einen Kommentar Antworten abbrechen

Versäumt

1) Bevorzugen `Annotated` Einschränkungen für Feldvalidatoren

Der optimierte Ansatz: `Annotated`

Warum `Annotated` ist schneller

2). Validieren Sie JSON mit `model_validate_json()`

3) Verwendung `TypeAdapter` zur Massenvalidierung

4) Vermeiden `from_attributes` es sei denn, Sie brauchen es

Warum `from_attributes=True` ist langsamer