In jeder NBA -Saison kämpfen 30 Groups um etwas, das nur einer erreichen wird: Das Erbe einer Meisterschaft. Von der Energy -Rangliste bis zum Handel mit Chaos und Verletzungen spekulieren Followers und Analysten endlos darüber, wer die Larry O’Brien -Trophäe erhöhen wird.

Aber was wäre, wenn wir über die heißen Einnahmen und Vorhersagen hinausgehen könnten, und Verwenden Sie Daten und Maschinelles Lernen Am Ende der regulären Saison prognostizieren Sie den NBA -Champion?

In diesem Artikel werde ich diesen Prozess durchgehen – vom Sammeln und Vorbereiten der Daten bis hin zur Schulung und Bewertung des Modells und schließlich verwenden Sie es, um Vorhersagen für die kommenden Playoffs 2024–25 zu treffen. Unterwegs werde ich einige der überraschendsten Erkenntnisse hervorheben, die aus der Analyse hervorgegangen sind.

Alle verwendeten Code und Daten sind auf verfügbar Github.


Das Downside verstehen

Vor dem Eintauchen in das Modelltraining ist der wichtigste Schritt bei jedem Projekt für maschinelles Lernen das Downside:
Welche Frage versuchen wir zu beantworten und welche Daten (und Modell) können uns helfen, dorthin zu gelangen?

In diesem Fall ist die Frage einfach: Wer wird der sein NBA Champion?

Eine natürliche erste Idee ist es, dies als einzuordnen Klassifizierungsproblem: Jedes Workforce in jeder Saison ist als entweder bezeichnet Champion oder Kein Champion.

Aber es gibt einen Haken. Es gibt nur Ein Champion professional Jahr (offensichtlich).

Wenn wir additionally Daten aus den letzten 40 Spielzeiten ziehen, hätten wir 40 constructive Beispiele… und Hunderte von negativen. Dieser Mangel an positiven Stichproben macht es für ein Modell äußerst schwierig, sinnvolle Muster zu lernen, insbesondere wenn man bedenkt, dass das Gewinnen eines NBA -Titels ein so seltenes Ereignis ist, dass wir einfach nicht genug historische Daten haben – wir arbeiten nicht mit 20.000 Jahreszeiten. Diese Knappheit macht es jedem Klassifizierungsmodell äußerst schwierig, wirklich zu verstehen, was Champions von den anderen trennt.

Wir brauchen einen intelligenteren Weg, um das Downside zu rahmen.

Um dem Modell zu helfen, zu verstehen, was einen Champion macht, ist es nützlich, es auch beizubringen, was eine macht quick Champion – und wie sich das von einem Workforce unterscheidet, das in der ersten Runde ausgeschaltet wurde. Mit anderen Worten, wir möchten, dass das Modell lernt Erfolgsgrade In den Playoffs eher als ein einfaches Ja/Nein -Ergebnis.

Dies führte mich zum Konzept von Champion Share – Der Anteil der Playoffs gewinnt ein Workforce aus der Gesamtzahl, die für den Gewinn des Titels erforderlich ist.

Ab 2003 dauert es 16 SiegeNBA -Champion werden. Zwischen 1984 und 2002 conflict die erste Runde jedoch eine Greatest-of-5 15 Siege.

Ein Workforce, das in der ersten Runde verliert, hat möglicherweise einen Gewinn von 0 oder 1 (Champion Share = 1/16), während ein Workforce, das das Finale erzielt, aber 14 Siege verliert (Champion Share = 14/16). Der Champion hat einen vollen Anteil von 1,0.

Beispiel für Playoff -Klammer aus den 2021 Playoffs

Dadurch werden die Aufgabe als neu bearbeitet Regressionsproblem wo das Modell einen kontinuierlichen Wert zwischen 0 und 1 vorhersagt – was darstellt, wie nahe jedes Workforce gekommen ist, alles zu gewinnen.

In diesem Setup das Workforce mit dem höchster vorhergesagtes Wert ist die Wahl unseres Modells für den NBA -Champion.

Dies ist ein ähnlicher Ansatz wie MVP -VorhersageAus meinem vorherigen Artikel.

Daten

Basketball – und insbesondere die NBA – ist dank des Volumens frei verfügbarer Statistiken einer der aufregendsten Sportarten, mit denen sie in der Datenwissenschaft zusammenarbeiten können. Für dieses Projekt habe ich Daten von gesammelt Basketballreferenz Mit meinem Python -Paket BrscraperDies ermöglicht einen einfachen Zugriff auf die Daten der Spieler und Groups. Die gesamte Datenerfassung wurde gemäß den Richtlinien der Web site und den Ratengrenzen erfolgen.

Die verwendeten Daten umfassen Statistik auf Teamebene Anwesend letzte reguläre Saisonstandards (zB Gewinnanteil, Aussaat) sowie Statistiken auf Spielerebene Für jedes Workforce (beschränkt auf Spieler, die in mindestens 30 Spielen erschienen) und Historische Playoff -LeistungIndikatoren.

Es ist jedoch wichtig, bei der Arbeit mit der Arbeit vorsichtig zu sein rohe, absolute Werte . Zum Beispiel die durchschnittliche Punkte professional Spiel (PPG)In der Saison 2023–24 conflict 114.2während im Jahr 2000-01 es conflict 94.8– Eine Zunahme von quick 20%.

Dies ist auf eine Reihe von Faktoren zurückzuführen, aber die Tatsache ist, dass sich das Spiel im Laufe der Jahre erheblich verändert hat, und so sind die daraus abgeleiteten Metriken.

Entwicklung einiger NBA-Statistiken professional Spiel (Bild des Autors)

Um diese Verschiebung zu berücksichtigen, vermeidet der Ansatz hier die Verwendung absoluter Statistiken direkt und entscheidet stattdessen für die Normalisierte, relative Metriken. Zum Beispiel:

  • Anstelle der PPG eines Groups können Sie ihre verwenden Rating in dieser Saison .
  • Anstatt zu zählen, wie viele Spieler durchschnittlich mehr als 20 PPG sind, können Sie überlegen, wie viele sich in der befinden Prime 10 in der Wertung und so weiter.

Dadurch kann das Modell erfasst werden relative DominanzInnerhalb jeder Zeit, die Vergleiche über Jahrzehnte aussagekräftiger machen und damit die Aufnahme älterer Jahreszeiten ermöglichen, den Datensatz zu bereichern.

Daten aus dem 1984 bis 2024Die Jahreszeiten wurden verwendet, um das Modell insgesamt zu trainieren und zu testen 40 Jahreszeiten mit insgesamt 70 Variablen.

Bevor Sie in das Modell selbst eintauchen, entstehen einige interessante Muster aus einer explorativen Analyse, wenn sie Meisterschaftsteams mit allen Playoff -Groups als Ganzes vergleichen:

Vergleich der Groups: Champions gegen Relaxation von Playoff -Groups (Bild des Autors)

Champions kommen aus den Prime -Samen und mit höheren Gewinnprozentsätzen nicht überraschend. Das Workforce mit dem schlechtesten regulären Saisonrekord, um alles in dieser Zeit zu gewinnen 1994–95 Houston Rocketsangeführt von Hakeem Olajuwon, beendet 47–35 (.573) und betritt die Playoffs als nur die 10. Bestes Gesamtteam(6. im Westen).

Ein weiterer bemerkenswerter Pattern ist, dass Champions tendenziell ein etwas höheres Durchschnittsalter haben, was darauf hindeutet, dass die Erfahrung eine entscheidende Rolle spielt, wenn die Playoffs beginnen. Das jüngste Meisterschaftsteam in der Datenbank mit durchschnittlich 26,6 Jahren ist die 1990–91 Chicago Bullsund das älteste ist das 1997–98 Chicago Bullsmit 31,2 Jahren – die ersten und letzten Titel der Michael Jordan Dinasty.

In ähnlicher Weise sind Groups mit Trainern, die länger mit dem Franchise waren, in der Nachsaison auch mehr Erfolg.

Modellieren

Das verwendete Modell conflict Lightgbmein baumbasierter Algorithmus, der neben anderen wie Xgboost als eine der effektivsten Methoden für tabellarische Daten erkannt wird. Es wurde eine Gittersuche durchgeführt, um die besten Hyperparameter für dieses spezifische Downside zu identifizieren.

Die Modellleistung wurde unter Verwendung des quadratischen Fehlers des Stammmittelmittels (stammende Mittel) bewertet (Rmse ) und der Bestimmungskoeffizient ( ).

Sie können die Formel und Erklärung jeder Metrik in meinem finden Vorheriger MVP -Artikel.

Die für das Coaching und Check verwendeten Jahreszeiten wurden zufällig ausgewählt, mit der Einschränkung von Reservieren der letzten drei Spielzeiten für den Testsatz Um die Leistung des Modells für neuere Daten besser zu bewerten. Wichtig ist, dass alle Groups in den Datensatz aufgenommen wurden – nicht nur diejenigen, die sich für die Playoffs qualifizierten -, sodass das Modell Muster lernen konnte, ohne sich auf die Nachsaison -Qualifikation zu stützen.

Ergebnisse

Hier sehen wir einen Vergleich zwischen den „Verteilungen“ sowohl der Vorhersagen als auch der realen Werte. Obwohl es sich technisch um ein Histogramm handelt – da es sich um ein Regressionsproblem handelt -, funktioniert es immer noch als visuelle Verteilung, da die Zielwerte von 0 bis 1 reichen. Zusätzlich zeigen wir auch die Verteilung des Restfehlers für jede Vorhersage an.

(Bild des Autors)

Wie wir sehen können, folgen die Vorhersagen und die realen Werte einem ähnlichen Muster, beide quick Null – da die meisten Groups keinen hohen Erfolg mit Playoffs erzielen. Dies wird weiter durch die Verteilung der Restfehler gestützt, die sich um Null konzentriert und einer Normalverteilung ähnelt. Dies deutet darauf hin, dass das Modell die in den Daten vorhandenen zugrunde liegenden Muster erfassen und reproduzieren kann.

In Bezug auf die Leistungsmetriken erreichte das beste Modell einen RMSE von 0,184 und einen R² -Rating von 0,537 im Testdatensatz.

Ein effektiver Ansatz zur Visualisierung der Schlüsselvariablen, die die Vorhersagen des Modells beeinflussen FormwerteAtechnique, das eine vernünftige Erklärung dafür liefert, wie sich jedes Merkmal auf die Vorhersagen des Modells auswirkt.

Auch hier kann eine tiefere Erklärung über Shap und die Interpretation seines Diagramms gefunden werden Vorhersage des NBA -MVP mit maschinellem Lernen.

Shap -Diagramm (Bild vom Autor)

Aus dem Shap -Diagramm entstehen mehrere wichtige Erkenntnisse:

  • SamenUnd W/l%Zu den drei wichtigsten Funktionen gehören und die Bedeutung der Teamleistung in der regulären Saison hervorhebt.
  • Workforce-Ebene wie Netto -Score (NRTG) Anwesend Gegnerpunkte professional Spiel (PA/G) Anwesend Rand des Sieges (MOV) Und Angepasste offensive Bewertung (ORTG/A) spielen auch eine bedeutende Rolle bei der Gestaltung des Playoff -Erfolgs.
  • Auf der Spielerseite stechen fortschrittliche Metriken hervor: die Anzahl der Spieler in den Prime 30 für Field Plus/Minus (BPM) Und Prime 3 für Gewinnanteile professional 48 Minuten (WS/48) gehören zu den einflussreichsten.

Interessanterweise erfasst das Modell auch breitere Developments – Groups mit höherem Durchschnittsalter arbeiten in den Playoffs in der Regel besser ab, und eine starke Leistung in der vorherigen Nachsaison korreliert häufig mit zukünftigem Erfolg. Beide Muster zeigen erneut auf Erfahrungals wertvolles Kapital bei der Verfolgung einer Meisterschaft.

Schauen wir uns nun genauer an, wie das Modell in der Leistung durchgeführt wurde Vorhersage der letzten drei NBA -Champions:

Vorhersagen für die letzten drei Jahre (Bild des Autors)

Das Modell wurde korrekt vorhergesagt zwei der letzten drei NBA -Champions. Der einzige Miss conflict im Jahr 2023, als er das bevorzugte Milwaukee Bucks . In dieser Saison hatte Milwaukee den besten Rekord der regulären Saison mit 58–24 (.707), aber eine Verletzung An Giannis Antetokounmpo verletzte ihren Playoff -Lauf. Die Böcke wurden in der ersten Runde von der Miami Warmth 4: 1 beseitigt, die das Finale erreichte – ein überraschender und enttäuschender Nachsaison -Ausstieg für Milwaukee, der die Meisterschaft erst zwei Jahre zuvor beansprucht hatte.

2025 Playoffs Vorhersagen

Für diese bevorstehenden 2025 Playoffs prognostiziert das Modell das Boston Celtics Again-to-Again gehen, mit OKC Und Clevelandnah hinter.

Angesichts ihrer starken regulären Saison (61–21, 2. Samen im Osten) und der Tatsache, dass sie die amtierenden Meister sind, stimme ich zu. Sie verbinden sich Aktuelle Leistungmit Jüngster Erfolg von Playoffs.

Wie wir alle wissen, kann im Sport alles passieren – und wir werden erst Ende Juni die wahre Antwort bekommen.

(Foto von Richard Burlton An Unplash)

Schlussfolgerungen

Dieses Projekt zeigt, wie maschinelles Lernen auf komplexe, dynamische Umgebungen wie Sport angewendet werden kann. Mit einem Datensatz über vier Jahrzehnte Basketball -Geschichte konnte das Modell sinnvolle Muster in den Erfolg des Playoffs aufdecken. Über die Vorhersage hinaus ermöglichten uns Instruments wie Shap, die Entscheidungen des Modells zu interpretieren und die Faktoren, die zum Erfolg nach der Saison beitragen, besser zu verstehen.

Eine der größten Herausforderungen in diesem Downside besteht darin Verletzungen. Sie können die Playoff -Landschaft komplett umgestalten – insbesondere wenn sie Starspieler während der Playoffs oder in der regulären Saison betreffen. Im Idealfall könnten wir Verletzungsgeschichten und Verfügbarkeitsdaten integrieren, um dies besser zu berücksichtigen. Leider ist es schwer, konsequente und strukturierte offene Daten in dieser Angelegenheit zu dieser Angelegenheit zu finden. Infolgedessen bleibt dies einer der blinden Flecken des Modells: Es behandelt alle Groups mit voller Stärke, was oft nicht der Fall ist.

Während kein Modell das Chaos und die Unvorhersehbarkeit des Sports activities perfekt vorhersagen kann, zeigt diese Analyse, dass datengetriebene Ansätze eng werden können. Während sich die Playoffs 2025 entfalten, wird es aufregend sein zu sehen, wie die Vorhersagen aufhalten – und was das Spiel immer noch überrascht.

(Foto von Tim Hart An Unplash)

Ich bin immer auf meinen Kanälen verfügbar (LinkedIn Und Github).

Danke für deine Aufmerksamkeit! 👏

Gabriel Speranza Pastorello

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert