Einführung

Logistische Regression ist ein Statistische Technik wird verwendet, um die Wahrscheinlichkeit eines binären (kategorialen Variablen, die zwei verschiedene Werte annehmen können) Ergebnisses basierend auf einer oder mehreren Prädiktorvariablen zu modellieren. Im Gegensatz zur linearen Regression, die kontinuierliche Variablen vorhersagt (nimmt eine beliebige unendliche Zahl in einem bestimmten Intervall an), wird die logistische Regression für kategorische Ergebnisse mit zwei möglichen Ergebnissen verwendet: Ja/Nein, bestanden/nicht bestanden oder 0/1. Dies ist eine Anleitung zum Ausführen eines binären logistischen Regressionsmodells mit Julius.

Überblick

  • Verstehen Sie die Grundlagen der logistischen Regression und ihre Anwendung auf binäre Ergebnisse.
  • Erfahren Sie, wie Sie einen Datensatz für die binäre logistische Regressionsanalyse vorbereiten und validieren.
  • Gewinnen Sie Einblicke in die Überprüfung und Behandlung von Multikollinearität und anderen Modellannahmen.
  • Entdecken Sie, wie Sie die Ergebnisse eines binären logistischen Regressionsmodells interpretieren. Nutzen Sie Julius AI, um den Prozess der Ausführung und Auswertung logistischer Regressionsmodelle zu optimieren.

Was ist Julius AI?

Julius AI ist ein leistungsstarkes Software für Datenwissenschaftler. Es analysiert und visualisiert große Datensätze und bietet Erkenntnisse durch klare visuelle Darstellungen. Es führt komplexe Aufgaben wie Prognosen und Regressionsanalysen aus. Julius AI trainiert auch Modelle für maschinelles Lernen und automatisiert die Algorithmenauswahl, Parameterabstimmung und Validierung. Es optimiert Arbeitsabläufe, reduziert den manuellen Aufwand und verbessert die Genauigkeit und Effizienz in datengesteuerten Projekten.

Sehen wir uns nun an, wie Julius AI zum Ausführen eines binären logistischen Regressionsmodells verwendet werden kann.

Datensatzannahmen

Um eine binäre logistische Regression auszuführen, müssen wir sicherstellen, dass unser Datensatz die folgenden Annahmen erfüllt:

  • Binäres Ergebnis ist abhängige Variable muss binär sein: hat genau zwei Kategorien
  • Die Beobachtungen müssen unabhängig sein, d. h. das Ergebnis einer Variable darf nicht das Ergebnis einer anderen Variable beeinflussen.
  • Die Linearität von Logit ist die Beziehung zwischen jeder Prädiktorvariablen, und die Log-Odds des Ergebnisses sollten linear sein.
  • Keine Multikollinearität, es sollte wenig bis keine Multikollinearität zwischen den unabhängigen Variablen geben.
  • Eine große Stichprobengröße trägt dazu bei, die Stabilität und Zuverlässigkeit der Schätzungen sicherzustellen.

Fragestellung

Hier wollten wir untersuchen, ob demografische Variablen Fluktuationsraten in verschiedenen Bildungseinrichtungen vorhersagen. Wir haben öffentlich zugängliche Daten von staatlichen Bildungsbehörden zu verschiedenen Schuldirektoren abgerufen. Wir haben die Fluktuationsrate zwei Jahre nach der Studie als Ja oder Nein gemessen (was die Annahme eines binären Faktors erfüllt). Andere Variablen, die in der Datenbank Schultyp, Rasse/Ethnie, Geschlecht, Grundgehalt und die gesamte Bildungserfahrung in Jahren. Die Datensatz enthielt über 1200 Schuldirektoren (Annahme einer großen Stichprobe erfüllt). Eine Vorschau des Datensatzes finden Sie unten.

Forschungsfrage | Anleitung zum Ausführen eines binären logistischen Regressionsmodells mit Julius

Methodik

Wir haben Eingabeaufforderungen erstellt, die klar und prägnant sind. Wir haben Julius verwendet, den führendes statistisches Softwaretooldie nicht automatisch alles produzierte, was mit dem Modell zusammenhängt. Daher überprüften wir die Modellannahmen und identifizierten abhängige Variablen und Prädiktorwerte. Anschließend führten wir beschreibende Statistik und beurteilte die Modellanpassung. Nach jedem immediatehaben wir Julius angewiesen, die Ergebnisse zu interpretieren. Unten finden Sie eine umfassende Liste unserer Eingabeaufforderungen und Julius‘ Ergebnisse. Wir haben Julius‘ Ergebnisse exakt reproduziert und die ursprünglichen Gespräche ohne Änderungen aufgezeichnet. Wir haben SPSS verwendet, um die Genauigkeit von Julius‘ Ergebnissen zu überprüfen.

Eingabeaufforderungen

Benutzer: Führen Sie ein binäres logistisches Regressionsmodell aus. Überprüfen Sie die folgenden Annahmen des logistischen Modells:

  1. Es darf kein Perfekt geben Multikollinearität zwischen unabhängigen Variablen
  2. Kontinuierliche Prädiktoren sind linear mit einer transformierten Model des Ergebnisses verknüpft (Linearität). Die abhängige Variable ist die Fluktuation. Die Prädiktorvariablen sind Schultyp, Rasse, Ethnizität, Geschlecht, Grundgehalt in Greenback und Gesamterfahrung in Jahren.

Der abschließende Modellbericht sollte Folgendes enthalten:

  1. Beschreibende Statistiken zur Ergebnisvariablen und jedem Prädiktor.
  2. Angaben darüber, welche Annahmen überprüft wurden und ob diese erfüllt wurden.
  3. Eine Aussage zur Modellsignifikanz, Modellanpassung und den Modellschätzungen, einschließlich ORs und ihrem 95%-KI.
  4. Eine Interpretation der Ergebnisse
  5. Zeigen Sie den Prozentsatz der Varianz, der mithilfe von R-Quadrat erklärt wird, und zeigen Sie den Beitrag jedes Prädiktorwerts.

Anleitung zum Ausführen eines binären logistischen Regressionsmodells mit Julius

Sehen wir uns nun Schritt für Schritt an, wie man ein binäres logistisches Regressionsmodell mit Julius ausführt:

Schritt 1: Vorschau des Datensatzes

Der Datensatz aus Blatt 1 der Datei „turnover.xlsx“ wurde geladen. Hier ist eine Vorschau der Daten:

Anleitung zum Ausführen eines binären logistischen Regressionsmodells mit Julius

Nun fahre ich mit der Analyse des binären logistischen Regressionsmodells fort und überprüfe dabei die Modellannahmen, deskriptiven Statistiken, Modellsignifikanz, Anpassung, Schätzungen und Interpretation der Ergebnisse. Beginnen wir mit den deskriptiven Statistiken der Ergebnisvariablen und jedes Prädiktors.

Schritt 2: Überprüfen der deskriptiven Statistiken, der Modellsignifikanz, der Anpassung und der Schätzungen

Die beschreibenden Statistiken für die numerischen Variablen (Grundgehalt in Greenback und Gesamterfahrung in Jahren) und die Ergebnisvariable (Stellenfluktuation, kodiert als 0 für „NEIN“ und 1 für „JA“) lauten wie folgt:

Anleitung zum Ausführen eines binären logistischen Regressionsmodells mit Julius

Für die kategorialen Variablen (Schultyp, Rasse/Ethnie, Geschlecht) lauten die deskriptiven Statistiken:

Anleitung zum Ausführen eines binären logistischen Regressionsmodells mit Julius

Schritt 3a: Überprüfung auf Multikollinearität zwischen unabhängigen Variablen mithilfe von VIF und Logit-Linearität

Als Nächstes überprüfe ich die Annahmen des logistischen Modells. Dabei teste ich zunächst die Multikollinearität der unabhängigen Variablen und bewerte dann die Linearität kontinuierlicher Prädiktoren mit dem Logit des Ergebnisses.

Der Variance Inflation Issue (VIF) wurde verwendet, um auf Multikollinearität zwischen Variablen zu prüfen. Die Ergebnisse sind wie folgt:

Anleitung zum Ausführen eines binären logistischen Regressionsmodells mit Julius

Der VIF für die meisten Variablen liegt unter 10, was im Allgemeinen akzeptabel ist und keine schwerwiegende Multikollinearität anzeigt. Der „Achsenabschnitt“ und einige Kategorien innerhalb des „Schultyps“ weisen jedoch höhere VIF-Werte auf, was auf potenzielle Multikollinearitätsprobleme innerhalb dieser kategorialen Variablen hindeutet.

Beim Versuch, die Linearitätsannahme mit dem Field-Tidwell-Take a look at zu überprüfen, trat aufgrund fehlender Daten oder unendlicher Werte in den transformierten Variablen ein Fehler auf. Dies deutet darauf hin, dass Null- oder adverse Werte in „Grundgehalt in Greenback“ und „Gesamterfahrung in Jahren“ beim Protokollieren zu undefinierten Werten führen können.

Schritt 3b: Problematische Werte behandeln: Nullen oder adverse Werte

Bevor ich fortfahre, muss ich dieses Downside beheben, indem ich diese problematischen Werte entferne oder imputiere. Lassen Sie uns zunächst die Daten auf Null- oder adverse Werte in diesen Spalten überprüfen und dann über die nächsten Schritte entscheiden.

Die Zeilen mit Nullwerten in der Spalte „Gesamterfahrung in Jahren“ verursachten den Fehler bei der Überprüfung der Linearitätsannahme. Hier sind die problematischen Zeilen:

Anleitung zum Ausführen eines binären logistischen Regressionsmodells mit Julius

Wir haben mehrere Möglichkeiten, mit der Prüfung der Linearitätsannahme fortzufahren: Entfernen Sie diese Zeilen aus dem Datensatz. Geben Sie die Nullwerte mit einer geeigneten Statistik ein (z. B. dem Mittelwert oder Median der „Gesamterfahrung in Jahren“).

Julius könnte deskriptive Statistiken ausführen, die Annahmen prüfen und uns fragen, wie wir mit den fehlenden Daten umgehen möchten. Fahren wir fort:

Benutzer: Möchten Sie die Zeilen mit Nullwerten in „Gesamterfahrung in Jahren“ entfernen oder die Nullwerte mit einer geeigneten Statistik eingeben?

Julius: Um die Integrität der Daten für die logistische Regressionsanalyse zu wahren, entfernen wir die Zeilen mit Nullwerten in „Gesamterfahrung in Jahren“. Mit diesem Ansatz können wir die Linearitätsannahme genau beurteilen, ohne die Datenverteilung künstlich zu verändern. Ich werde diese Zeilen entfernen und dann die Überprüfung der Linearitätsannahme erneut versuchen.

Schritt 4: Ergebnis der Überprüfung der Linearitätsannahme

Wir haben die Linearitätsannahmeprüfung mithilfe des Field-Tidwell-Checks abgeschlossen, nachdem wir Zeilen mit Nullwerten in „Gesamterfahrung in Jahren“ entfernt hatten. Hier sind die Ergebnisse des logistischen Regressionsmodells:

Anleitung zum Ausführen eines binären logistischen Regressionsmodells mit Julius

Das Modell enthält die logarithmisch transformierten Prädiktoren „Grundgehalt in Greenback“ und „Gesamterfahrung in Jahren“. Beide Prädiktoren sind statistisch signifikant, wie ihre p-Werte zeigen (P<0,05). Der Koeffizient für „Grundgehalt in Greenback log“ ist positiv, was darauf hindeutet, dass die Wahrscheinlichkeit einer Fluktuation mit steigendem Grundgehalt zunimmt. Der Koeffizient für „Gesamterfahrung in Jahren log“ ist negativ, was darauf hindeutet, dass die Wahrscheinlichkeit einer Fluktuation mit steigender Gesamterfahrung abnimmt.

Schritt 5: Durchführen des logistischen Regressionsmodells

Als Nächstes fahre ich mit dem vollständigen logistischen Regressionsmodell fort, einschließlich aller Prädiktoren, um die Modellsignifikanz, Anpassung, Schätzungen (ORs und ihre 95%-KIs) und den relativen Beitrag jeder Prädiktorvariablen zu bewerten.

Die gesamte Analyse des logistischen Regressionsmodells wurde abgeschlossen. Hier ist eine Zusammenfassung der Modellergebnisse:

Anleitung zum Ausführen eines binären logistischen Regressionsmodells mit Julius

Das Modell enthält Prädiktoren wie Schultyp, Rasse/Ethnie, Geschlecht, logarithmisch transformiertes Grundgehalt und logarithmisch transformierte Gesamterfahrung. Der Pseudo-R-Quadrat-Wert des Modells beträgt 0,04257, was auf eine mäßige Anpassung hinweist. Das logarithmisch transformierte Grundgehalt und die Gesamterfahrung sind statistisch signifikante Prädiktoren der Fluktuation mit p-Werten unter 0,05. Die Koeffizienten für andere Variablen, einschließlich Schultyp, Rasse/Ethnie und Geschlecht, sind auf dem 0,05-Niveau nicht statistisch signifikant.

Schritt 6: Verwenden des Odds Ratio zur Quantifizierung der Stärke und Richtung der Assoziation zwischen Variablen

Die Odds Ratios (ORs) und ihre 95%-Konfidenzintervalle (CIs) für jeden Prädiktor lauten wie folgt:

Anleitung zum Ausführen eines binären logistischen Regressionsmodells mit Julius

Das OR für das logarithmisch transformierte Grundgehalt beträgt 0,337, was bedeutet, dass die Wahrscheinlichkeit einer Fluktuation professional Einheitserhöhung des logarithmisch transformierten Grundgehalts um etwa 66,3 % sinkt. Das OR für die logarithmisch transformierte Gesamterfahrung beträgt 0,429, was bedeutet, dass die Wahrscheinlichkeit einer Fluktuation professional Einheitserhöhung der logarithmisch transformierten Gesamterfahrung um etwa 57,1 % sinkt. Die OR für Schultyp, Rasse/Ethnie und Geschlecht zeigen ihre relativen Auswirkungen auf die Wahrscheinlichkeit einer Fluktuation an, obwohl diese Auswirkungen statistisch nicht signifikant sind.

Diese Analyse bietet Einblicke in die Faktoren, die die Fluktuation bei Stellen beeinflussen, und unterstreicht die Bedeutung von Gehalt und Erfahrung.

Abschluss

Wir fanden heraus, dass das Grundgehalt in Greenback und die Gesamterfahrung in Jahren zwei signifikante Prädiktoren für die Fluktuationsrate unter Schulleitern sind. Das binäre logistische Regressionsmodell mit Julius zeigt, dass das Grundgehalt mit einem Koeffizienten von -1,0874 (SE = 0,411, p = 0,008) die Fluktuationsrate erheblich beeinflusst. Mit jeder Einheit, die das logarithmisch transformierte Grundgehalt erhöht, verringert sich die Fluktuation um 66,3 %. Darüber hinaus hat die Gesamterfahrung mit einem Koeffizienten von -0,4792 (SE = 0,194, p = 0,014) einen erheblichen Einfluss auf die Fluktuationsrate. Jede Einheit, um die mehr Erfahrung hinzukommt, führt zu einer Verringerung der Fluktuation um 57,1 %.

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert