Der gesamte in diesem Artikel verwendete Code ist verfügbar unter GitHub. Die Geschäftslogik- und Modellierungsfunktionen befinden sich im src/choice Verzeichnis, insbesondere in der folgenden Datei:

src/modeling/score_computation.py

Die entsprechenden Analysen und Ergebnisse sind dokumentiert in:

09_score_computation.qmd

Die Bilder, Tabellen und Diagramme wurden mit Hilfe des Kodierungsassistenten Codex erstellt.

Ihre Kreditwürdigkeit folgt Ihnen überall hin. Es entscheidet darüber, ob Sie einen Kredit, eine Kreditkarte oder sogar eine Wohnung erhalten. Das Modell hinter den meisten dieser Entscheidungen ist FICO. Die Logik ist einfach, wenn man sie einmal aufschlüsselt.

FICO wiegt fünf Dinge:

  • Zahlungsverhalten (35 %): Bezahlen Sie Ihre Rechnungen pünktlich.
  • Geschuldete Beträge (30 %): Halten Sie Ihren Kreditverbrauch unter 20 %.
  • Länge der Anamnese (15 %): je länger, desto besser.
  • Kreditmix (10 %): Nutzen Sie verschiedene Kreditarten.
  • Neues Guthaben (10 %): Beschränkung neuer Anträge.

Wenn Sie Ihre Kreditkartenrechnungen pünktlich bezahlen, steigt Ihr Punktestand. Die Zahlungshistorie hat das größte Gewicht.

Diese Gewichte ergeben eine Punktzahl, aufgeteilt in Bereiche:

  • 300–579: Arm.
  • 580–669: Honest.
  • 670–739: Intestine.
  • 740–799: Sehr intestine.
  • 800–850: Ausgezeichnet.

Dieser Artikel folgt derselben Logik, wendet sie jedoch auf unser eigenes Modell an.

Wir verwenden den Datensatz aus dieser Serie zum Erstellen eines Bewertungsmodells. Das Ziel ist einfach: Geben Sie jeder beibehaltenen Variablen eine Gewichtung, berechnen Sie die Punktzahl für jeden Kunden in unseren Daten und zeigen Sie, wie die Punktzahl eines neuen Kunden berechnet wird.

Wie zuvor half Codex beim Schreiben des Codes und beim Erstellen der Tabellen und Diagramme. Ich sage das immer wieder, weil es wichtig ist: Sie können KI-Agenten einsetzen, um Ihre Arbeit zu beschleunigen. Aber überprüfen Sie ihre Ausgabe. Vertrauen wächst nur, wenn Sie es bestätigen. Nutzen Sie diese Instruments, aber bleiben Sie wachsam.

Erinnern wir uns daran, was wir letztes Mal gefunden haben. Wir haben vier Variablen beibehalten:

  • loan_int_rate: der Zinssatz des Darlehens.
  • loan_percent_income: der Anteil des Einkommens, der für Kreditzahlungen aufgewendet wird.
  • cb_person_default_on_file: ob der Kreditnehmer zuvor in Zahlungsverzug geraten ist.
  • home_ownership_3: der Wohnstatus des Kreditnehmers.

Wie FICO geben wir jeder Variablen ein Gewicht und bilden einen Wert von 0 bis 1000. Ein hoher Wert bedeutet geringes Risiko. Ein niedriger Rating bedeutet ein hohes Ausfallrisiko.

Von Modellkoeffizienten zu einem Rating

Wir wandeln jeden Koeffizienten in eine Punktzahl um.

Bewertung für jede Kategorie einer Variablen

Nehmen loan_int_rate als Beispiel. Die Punktzahl für die Kategorie ichich Ist:

𝑺𝑪(𝒋,𝒊)=1000×|𝒄(𝒋,𝒊)𝜶𝒋|𝒋=1𝒑𝜶𝒋bm{ SC(j,i) = 1000 occasions frac { sum_{j=1}^{p}alpha_j } }

Hier, C(J,ich)c(j,i) ist der Koeffizient für die Kategorie ichich der Variablen JJ. Und αJalpha_j ist der höchste Koeffizient für die Variable JJ. Für die Variable „loan_int_rate“ beträgt der höchste Koeffizient beispielsweise αJ=1.357044926979alpha_j = 1,357044926979 .

Diese Formel ergibt die folgende Punktetabelle.

Die Punktzahl eines Kunden, Schritt für Schritt

Nehmen Sie einen neuen Kunden. Wir prüfen für jede Variable, in welche Kategorie sie fallen:

  • loan_int_rate beträgt 10 %. Ergebnis: 181,72.
  • loan_percent_income beträgt 25 %. Punktzahl: 0.
  • Kein früherer Customary (cb_person_default_on_file = N). Punktzahl: 59,52.
  • Besitzt ihr Haus (home_ownership_3 = OWN). Punktzahl: 373,94.

Wir addieren diese Ergebnisse, um das Endergebnis für den Kunden zu erhalten:181.72+59.52+0+373.94=615.18bm{181,72 + 59,52 + 0 + 373,94 = 615,18}

Wir wiederholen dies für jeden Kunden in unseren Daten.

Wie wichtig jede Variable ist

Sobald wir die Punktzahl haben, fragen wir: Welche Variable bestimmt sie am meisten?

Wir messen dies anhand der Trainingsdaten:

Hier:

  • Pok: Anteil der Kunden in der Kategorie ok der Variablen J;p_k : textual content{ Anteil der Kunden in der Kategorie } ok textual content{ der Variablen } j;
  • Die Bar vorbei SCJmathrm{SC}_j stellt die durchschnittliche Punktzahl der Variablen j dar, gewichtet nach Inhabitants;
  • MJ: Anzahl der Kategorien in der Variablen J;m_j: textual content{ Anzahl der Kategorien in Variable } j;
  • N: Anzahl der Variablen im Modell.n : textual content{ Anzahl der Variablen im Modell.}

In einfachen Worten: QJq_j​ zeigt an, wie viel variabel JJ verschiebt die Partitur. Je größer die Unterschiede zwischen den verschiedenen Kategorien sind, desto höher ist ihr Gewicht.

Die folgende Tabelle zeigt die Gewichtung jeder Variablen.

loan_percent_income wiegt am meisten, bei 35 %. Dann home_ownership_3 bei 31 %, loan_int_rate bei 28 %Und cb_person_default_on_file zuletzt.

Das macht Sinn. Ein Kunde, der mehr als 20 % seines Einkommens für Kreditzahlungen ausgibt, ist riskant. Die Tatsache, dass diese Variable den Rating am stärksten beeinflusst, ist eine gute Nachricht: Das Modell erfasst das richtige Sign.

Trennt der Rating das Risiko intestine?

Bevor wir das Risikoraster erstellen, prüfen wir, ob der Rating seinen Zweck erfüllt: die säumigen von den nicht zahlungsunfähigen Kreditnehmern.

Wir zeichnen die Dichte der Punktzahl für jede Gruppe auf, standardmäßig aufgeteilt in Trainings-, Check- und Out-of-Time-Daten.

Je weiter die beiden Kurven voneinander entfernt sind, desto besser funktioniert die Bewertung.

Was wir sehen: Standardwerte häufen sich bei niedrigen Werten. Nicht-Customary-Cluster mit hohen Punktzahlen. Das ist es, was wir wollen: hohe Punktzahl, geringes Risiko.

Aufbau des Risikorasters

Jetzt bauen wir das Gitter auf.

Schritt 1: Standardrate nach Bewertungsgruppe

Wir teilen die Punktzahl in 20 gleiche Gruppen auf und zeichnen für jede die Standardquote auf. Wir beginnen damit, dass wir die Standardquote im Verhältnis zu den Vingtiles (20 gleichgroße Segmente) des Endergebnisses auftragen.

Dieses Diagramm ist die Grundlage für das Raster: Es bietet einen natürlichen Ausgangspunkt für die Gruppierung der 20 Segmente in sechs Risikoklassen.

Schritt 2: Sechs Risikoklassen

Basierend auf dem Diagramm gruppieren wir die 20 Segmente wie folgt:

  • Gruppen 1, 2, 3, mit Werten zwischen 0 und 241: niedrigste Werte, höchstes Risiko.
  • Gruppen 4, 5, 6, mit Werten zwischen 241 und 331.
  • Gruppen 7, 8, mit Werten zwischen 332 und 498.
  • Gruppen 9, 10, 11, 12, mit Werten zwischen 498 und 589.
  • Gruppen 13, 14, 15, 16, 17, mit Werten zwischen 589 und 780.
  • Gruppen 18, 19, 20, mit Werten zwischen 781 und 1000: höchste Werte, geringstes Risiko.

Diese Klassen müssen drei Regeln erfüllen:

✓ Jede Klasse muss ein einheitliches Risiko aufweisen;
✓ Jede Klasse muss sich um mindestens 30 % von der nächsten unterscheiden;
✓ Jede Klasse muss mindestens 1 % aller Kunden umfassen.

Die obige Tabelle zeigt, dass diese Regeln eingehalten werden.

Schritt 3: Stabilität prüfen

Ein Risikoraster funktioniert nur, wenn es über die Zeit Bestand hat. Wir prüfen zwei Dinge:

  • Risikoreichere Klassen müssen im gesamten Verlauf immer höhere Ausfallraten aufweisen.
  • Die Anzahl der Kunden in jeder Klasse muss über die Zeit konstant bleiben.

Beides gilt: Das Risiko bleibt in der richtigen Reihenfolge und die Klassengrößen bleiben konstant.

Abschluss

Dieser Artikel schließt unsere Serie zum Aufbau eines Bewertungsmodells ab. Wir begannen mit den Daten und endeten mit einem Risikoraster.

Wir haben einen Rating von 0 bis 1000 erstellt, indem wir jede Kategorie jeder Variablen bewertet haben. Die Bewertung eines Kunden ist die Summe dieser Kategoriebewertungen. Der Rating teilt das Risiko intestine auf: Säumige und Nicht-Säumige landen in deutlich unterschiedlichen Bereichen.

Das Gewicht jeder Variablen: loan_percent_income führt additionally mit 35 % home_ownership_3 bei 31 %, loan_int_rate bei 28 % und cb_person_default_on_file zuletzt.

👉 Intestine zu wissen: Je höher Ihr Einkommen im Vergleich zu Ihrem Kredit, desto höher ist Ihr Rating.

Das endgültige Risikoraster:

  • 0–241: Sehr hohes Risiko.
  • 241–331: Hohes Risiko.
  • 332–498: Mittleres bis hohes Risiko.
  • 499–589: Mittleres Risiko.
  • 590–789: Geringes Risiko.
  • 790–1000: Sehr geringes Risiko.

Ich habe diesen Artikel absichtlich kurz gehalten. Wir haben das Raster hier mithilfe von Vingtiles und visueller Gruppierung erstellt, es gibt jedoch auch andere statistische Methoden, um die Ergebnisse in homogene Klassen aufzuteilen. Ok-Means, hierarchisches Clustering und Weight of Proof (WoE) bieten alle einen strengeren Weg zum gleichen Ziel. Das wird das Thema meines nächsten Artikels sein.

Referenzen

(1) Lorenzo Beretta und Alessandro Santaniello.
Algorithmen zur Imputation des nächsten Nachbarn: Eine kritische Bewertung.
Nationalbibliothek für Medizin, 2016.

(2) Nexialog-Beratung.
Traitement of données manquantes dans the milieu bancaire.
Arbeitspapier, 2022.

(3) John T. Hancock und Taghi M. Khoshgoftaar.
Umfrage zu kategorialen Daten für neuronale Netze.
Journal of Huge Information, 7(28), 2020.

(4) Melissa J. Azur, Elizabeth A. Stuart, Constantine Frangakis und Philip J. Leaf.
Mehrfachimputation durch verkettete Gleichungen: Was ist das und wie funktioniert es?
Worldwide Journal of Strategies in Psychiatric Analysis, 2011.

(5) Majid Sarmad.
Robuste Datenanalyse für faktorielle experimentelle Designs: Verbesserte Methoden und Software program.
Fakultät für Mathematische Wissenschaften, College of Durham, England, 2006.

(6) Daniel J. Stekhoven und Peter Bühlmann.
MissForest – Nichtparametrische Imputation fehlender Werte für Daten gemischter Datentypen.Bioinformatik, 2011.

(7) Supriyanto Wibisono, Anwar und Amin.
Multivariate Erkennung von Wetteranomalien mithilfe des DBSCAN-Clustering-Algorithmus.
Journal of Physics: Konferenzreihe, 2021.

(8) Laborda, J. & Ryoo, S. (2021). Funktionsauswahl in einem Kreditbewertungsmodell. Mathematik, 9(7), 746.

Daten & Lizenzierung

Der in diesem Artikel verwendete Datensatz ist unter der Lizenz lizenziert Artistic Commons Namensnennung 4.0 Worldwide (CC BY 4.0) Lizenz.

Diese Lizenz erlaubt es jedem, den Datensatz für jeden Zweck, einschließlich kommerzieller Nutzung, weiterzugeben und anzupassen, sofern die Quelle ordnungsgemäß angegeben wird.

Weitere Einzelheiten finden Sie im offiziellen Lizenztext: CC0: Public Area.

Haftungsausschluss

Für etwaige verbleibende Fehler oder Ungenauigkeiten ist der Autor verantwortlich. Suggestions und Korrekturen sind willkommen.

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert