Die Wahrheit ist niemals perfekt. Von wissenschaftlichen Messungen bis hin zu menschlichen Anmerkungen, die zum Ausbilden von tiefen Lernmodellen verwendet wurden, hat die Grundwahrheit immer ein gewisses Maß an Fehlern. ImageNet, wohl am besten kuratiertes Bilddatensatz hat 0,3% Fehler bei menschlichen Anmerkungen. Wie können wir dann Vorhersagemodelle anhand solcher fehlerhaften Beschriftungen bewerten?

In diesem Artikel untersuchen wir, wie Fehler in Testdatenbezeichnungen berücksichtigt werden, und schätzen die „wahre“ Genauigkeit eines Modells.

Beispiel: Bildklassifizierung

Nehmen wir an, es gibt 100 Bilder, die entweder eine Katze oder einen Hund enthalten. Die Bilder werden von menschlichen Annotatoren gekennzeichnet, von denen bekannt ist, dass sie eine Genauigkeit von 96% (Aᵍʳᵒᵘⁿᵈᵗʳᵘᵗʰ) haben. Wenn wir einen Picture-Klassifizierer für einige dieser Daten trainieren und feststellen, dass es eine Genauigkeit von 90% für einen Maintain-out-Set (Aᵐᵒᵈᵉˡ) hat, wie lautet die „wahre“ Genauigkeit des Modells (Aᵗʳᵘᵉ)? Zuerst ein paar Beobachtungen:

  1. Innerhalb der 90% der Vorhersagen, dass das Modell „richtig“ wurde, wurden einige Beispiele möglicherweise falsch gekennzeichnet, was bedeutet, dass sowohl das Modell als auch die Grundwahrheit falsch sind. Dies verbessert künstlich die gemessene Genauigkeit.
  2. Umgekehrt können einige innerhalb der 10% der „falschen“ Vorhersagen tatsächlich Fälle sein, in denen das Modell richtig ist und das Label der Bodenwahrheit falsch ist. Dies entfällt künstlich die gemessene Genauigkeit.

Wie sehr kann die wahre Genauigkeit angesichts dieser Komplikationen variieren?

Reichweite der wahren Genauigkeit

Wahre Genauigkeit des Modells für perfekt korrelierte und perfekt unkorrelierte Fehler von Modell und Etikett. Figur des Autors.

Die wahre Genauigkeit unseres Modells hängt davon ab, wie seine Fehler mit den Fehlern in den Bodenwahrheitsbezeichnungen korrelieren. Wenn sich die Fehler unseres Modells mit den Grundwahrheitsfehlern perfekt überschneiden (dh das Modell ist in genau genauso falsch wie menschliche Label), ist seine wahre Genauigkeit:

Aᵗʳᵘᵉ = 0,90 – (1–0,96) = 86%

Alternativ ist, wenn unser Modell als menschliche Label (perfekte destructive Korrelation) genau das Gegenteil falsch ist, seine wahre Genauigkeit lautet:

Aᵗʳᵘᵉ = 0,90 + (1–0,96) = 94%

Oder allgemeiner:

Aᵗʳᵘᵉ = aᵐᵒᵈᵉˡ ± (1 – aᵍʳᵒᵘⁿᵈᵗʳᵘᵗʰ)

Es ist wichtig zu beachten, dass die wahre Genauigkeit des Modells sowohl niedriger als auch höher sein kann als die gemeldete Genauigkeit, abhängig von der Korrelation zwischen Modellfehlern und Grundwahrheitsfehlern.

Probabilistische Schätzung der wahren Genauigkeit

In einigen Fällen werden die Ungenauigkeiten zwischen den Beschriftungen zwischen den Beispielen zufällig verteilt und nicht systematisch auf bestimmte Etiketten oder Regionen des Merkmalsraums voreingenommen. Wenn die Ungenauigkeiten des Modells unabhängig von den Ungenauigkeiten in den Etiketten sind, können wir eine genauere Schätzung seiner wahren Genauigkeit ableiten.

Wenn wir Aᵐᵒᵈᵉˡ (90%) messen, zählen wir Fälle, in denen die Vorhersage des Modells mit dem Bodentwahrheitsbezeichnung übereinstimmt. Dies kann in zwei Szenarien passieren:

  1. Sowohl das Modell als auch die Bodenwahrheit sind korrekt. Dies geschieht mit der Wahrscheinlichkeit aᵗʳᵘᵉ × aᵍʳᵒᵘⁿᵈᵗʳᵘᵗʰ.
  2. Sowohl das Modell als auch die Bodenwahrheit sind (auf die gleiche Weise) falsch. Dies geschieht mit Wahrscheinlichkeit (1 – aᵗʳᵘᵉ) × (1 – aᵍʳᵒᵘⁿᵈᵗʳᵘᵗʰ).

Unter der Unabhängigkeit können wir dies als:

Aᵐᵒᵈᵉˡ = aᵗʳᵘᵉ × aᵍʳᵒᵘⁿᵈᵗʳᵘᵗʰ + (1 – aᵗʳᵘᵉ) × (1 – aᵍʳᵒᵘⁿᵈᵗʳᵘᵗʰ)

Wenn wir die Begriffe neu anordnen, bekommen wir:

Aᵗʳᵘᵉ = (Aᵐᵒᵈᵉˡ + aᵍʳᵒᵘⁿᵈᵗʳᵘᵗʰ – 1) / (2 × aᵍʳᵒᵘⁿᵈᵗʳᵘᵗʰ – 1)

In unserem Beispiel entspricht dies (0,90 + 0,96–1) / (2 × 0,96–1) = 93,5%, was im Bereich von 86% bis 94% liegt, den wir oben abgeleitet haben.

Das Unabhängigkeitsparadox

Wenn wir Aᵍʳᵒᵘⁿᵈᵗʳᵘᵗʰ als 0,96 aus unserem Beispiel einstecken, bekommen wir

Aᵗʳᵘᵉ = (aᵐᵒᵈᵉˡ – 0,04) / (0,92). Lassen Sie uns dies unten zeichnen.

Wahre Genauigkeit als Funktion der gemeldeten Genauigkeit des Modells, wenn die Genauigkeit der Grundwahrheit = 96%. Figur des Autors.

Seltsam, nicht wahr? Wenn wir davon ausgehen, dass die Fehler des Modells mit Grundwahrheitsfehlern nicht korreliert sind, ist die wahre Genauigkeit A ᵗʳᵘᵉ immer höher als die 1: 1 -Zeile, wenn die gemeldete Genauigkeit> 0,5 beträgt. Dies gilt auch dann, wenn wir unterscheiden aᵍʳᵒᵘⁿᵈᵗʳᵘᵗʰ:

Die „wahre“ Genauigkeit des Modells als Funktion seiner gemeldeten Genauigkeit und der Genauigkeit der Grundwahrheit. Figur des Autors.

Fehlerkorrelation: Warum Modelle oft dort kämpfen, wo Menschen tun

Die Unabhängigkeitsannahme ist entscheidend, aber in der Praxis oft nicht. Wenn einige Bilder von Katzen sehr verschwommen sind oder einige kleine Hunde wie Katzen aussehen, sind sowohl die Grundwahrheits- als auch die Modellfehler wahrscheinlich korreliert. Dies führt dazu, dass Aᵗʳᵘᵉ näher an der unteren Grenze (aᵐᵒᵈᵉˡ – (1 – aᵍʳᵒᵘⁿᵈᵗʳᵘᵗʰ)) als die Obergrenze liegt.

Im Allgemeinen sind Modellfehler in der Regel mit Grundwahrheitsfehlern korreliert, wenn:

  1. Sowohl Menschen als auch Modelle haben mit den gleichen „schwierigen“ Beispielen zu kämpfen (z. B. mehrdeutige Bilder, Randfälle)
  2. Das Modell hat die gleichen Verzerrungen gelernt, die im menschlichen Kennzeichnungsprozess vorhanden sind
  3. Bestimmte Klassen oder Beispiele sind für jeden Klassifikator, Menschen oder Maschine von Natur aus mehrdeutig oder herausfordernd
  4. Die Etiketten selbst werden aus einem anderen Modell generiert
  5. Es gibt zu viele Klassen (und damit zu viele verschiedene Arten, falsch zu sein)

Greatest Practices

Die wahre Genauigkeit eines Modells kann sich erheblich von seiner gemessenen Genauigkeit unterscheiden. Das Verständnis dieses Unterschieds ist für die ordnungsgemäße Modellbewertung von entscheidender Bedeutung, insbesondere in Bereichen, in denen das Erhalten perfekter Grundwahrheit unmöglich oder unerschwinglich teuer ist.

Bei der Bewertung der Modellleistung mit unvollständiger Grundwahrheit:

  1. Durchführen Sie gezielte Fehleranalyse: Untersuchen Sie Beispiele, in denen das Modell mit der Grundwahrheit nicht einverstanden ist, um mögliche Grundwahrheitsfehler zu identifizieren.
  2. Betrachten Sie die Korrelation zwischen Fehlern: Wenn Sie die Korrelation zwischen Modell- und Grundwahrheitsfehlern vermuten, liegt die wahre Genauigkeit wahrscheinlich näher an der unteren Grenze (aᵐᵒᵈᵉˡ – (1 – aᵍʳᵒᵘⁿᵈᵗʳᵘᵗʰ)).
  3. Erhalten Sie mehrere unabhängige Anmerkungen: Mehrere Annotatoren können dazu beitragen, die Genauigkeit der Grundwahrheit zuverlässig zu schätzen.

Abschluss

Zusammenfassend haben wir das gelernt:

  1. Der Bereich möglicher wahrer Genauigkeit hängt von der Fehlerrate in der Grundwahrheit ab
  2. Wenn Fehler unabhängig sind, ist die tatsächliche Genauigkeit häufig höher als für Modelle besser als zufällige Probability
  3. In realen Szenarien sind Fehler selten unabhängig, und die wahre Genauigkeit liegt wahrscheinlich näher an der Untergrenze

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert