Beispiele für die Erstellung verschiedener Arten von Kreisdiagrammen mit Matplotlib, um die Ergebnisse der Datenbankanalyse in einem Jupyter-Pocket book mit Pandas zu visualisieren
Während meiner Masterarbeit mit dem Titel „Elements Related to Impactful Scientific Publications in NIH-Funded Coronary heart Illness Analysis“ habe ich verschiedene Arten von Kreisdiagrammen verwendet, um einige der wichtigsten Ergebnisse der Datenbankanalyse zu veranschaulichen.
Ein Kreisdiagramm kann eine effektive Wahl für die Datenvisualisierung sein, wenn ein Datensatz eine begrenzte Anzahl von Kategorien enthält, die Teile eines Ganzen darstellen. Daher eignet es sich intestine für die Anzeige kategorialer Daten mit Schwerpunkt auf dem Vergleich der relativen Anteile jeder Kategorie.
In diesem Artikel werde ich zeigen, wie man mit demselben Datensatz vier verschiedene Arten von Kreisdiagrammen erstellt, um eine umfassendere visuelle Darstellung und tiefere Einblicke in die Daten zu ermöglichen. Um dies zu erreichen, verwende ich Matplotlib, die Plotbibliothek von Python, um Kreisdiagrammvisualisierungen der im Datenrahmen gespeicherten statistischen Daten anzuzeigen. Wenn Sie mit der Matplotlib-Bibliothek nicht vertraut sind, ist das Python Information Science Handbook von Jake VanderPlas, insbesondere das Kapitel über, ein guter Anfang Visualisierung mit Matplotlib Und matplotlib.org.
Importieren wir zunächst alle notwendigen Bibliotheken und Erweiterungen:
Als Nächstes bereiten wir die CSV-Datei für die Verarbeitung vor:
Der in diesem Artikel verwendete Minidatensatz hebt die Prime-10-Zeitschriften für Veröffentlichungen zur Herzkrankheitsforschung von 2002 bis 2020 hervor und ist Teil einer größeren Datenbank, die für die Masterarbeitsforschung zusammengestellt wurde. Die Spalten „Weiblich“, „Männlich“ und „Unbekannt“ stellen das Geschlecht des Erstautors der veröffentlichten Artikel dar, während die Spalte „Gesamt“ die Gesamtzahl der in jeder Zeitschrift veröffentlichten Forschungsartikel zu Herzerkrankungen widerspiegelt.
Bei kleineren Datensätzen mit weniger Kategorien kann ein Kreisdiagramm mit explodierenden Abschnitten eine Schlüsselkategorie effektiv hervorheben, indem es sie leicht aus dem Relaxation des Diagramms heraushebt. Dieser visuelle Effekt lenkt die Aufmerksamkeit auf bestimmte Kategorien und hebt sie so vom Ganzen ab. Jedes Phase stellt einen Teil der Gesamtheit dar, wobei seine Größe proportional zu den Daten ist, die es darstellt. Zu jedem Phase können Beschriftungen hinzugefügt werden, um die Kategorie anzugeben, zusammen mit Prozentsätzen, um ihren Anteil an der Gesamtsumme anzuzeigen. Diese visuelle Technik hebt das explodierte Phase hervor, ohne dass der Kontext der vollständigen Datendarstellung verloren geht.
Die gleiche Technik der explodierenden Slices kann auf alle anderen Einträge im Beispieldatensatz angewendet werden, und die resultierenden Diagramme können in einer einzigen Abbildung angezeigt werden. Diese Artwork der Visualisierung hilft dabei, die Über- oder Unterrepräsentation einer bestimmten Kategorie innerhalb des Datensatzes hervorzuheben. Im bereitgestellten Beispiel zeigt die Darstellung aller zehn Diagramme in einer Abbildung, dass keine der zehn führenden Zeitschriften in der Herzkrankheitsforschung mehr Artikel veröffentlichte, die von Frauen als von Männern verfasst wurden, was die Ungleichheit zwischen den Geschlechtern verdeutlicht.
Zur Visualisierung von Daten kann auch eine Variation des Kreisdiagramms, ein sogenanntes Donut-Diagramm, verwendet werden. Donut-Diagramme zeigen wie Kreisdiagramme die Anteile von Kategorien an, die ein Ganzes bilden. Die Mitte des Donut-Diagramms kann jedoch auch zur Darstellung zusätzlicher Daten genutzt werden. Dieses Format ist optisch übersichtlicher und kann den Vergleich der relativen Größen von Abschnitten im Vergleich zu einem Commonplace-Kreisdiagramm erleichtern. In dem in diesem Artikel verwendeten Beispiel zeigt das Donut-Diagramm, dass das American Journal of Physiology, Coronary heart and Circulatory Physiology unter den Prime-10-Zeitschriften für Veröffentlichungen zur Herzkrankheitsforschung mit 21,8 % die meisten Artikel veröffentlichte.
Wir können die Visualisierung zusätzlicher Informationen aus dem Beispieldatensatz verbessern, indem wir auf dem vorherigen Ringdiagramm aufbauen und eine verschachtelte Model erstellen. Der add_artist() Die Methode aus dem Figurenmodul von Matplotlib wird verwendet, um zusätzliche Künstler (z. B. Figuren oder Objekte) in die Basisfigur einzubinden. Ähnlich wie das frühere Donut-Diagramm zeigt diese Variante die Verteilung der Veröffentlichungen in den Prime-10-Zeitschriften zur Herzkrankheitsforschung. Es enthält jedoch auch eine zusätzliche Ebene, die die Geschlechterverteilung der Erstautoren für jede Zeitschrift anzeigt. Diese Visualisierung verdeutlicht, dass ein größerer Prozentsatz der Erstautoren männlich ist.
Zusammenfassend lässt sich sagen, dass Kreisdiagramme für die Visualisierung von Daten mit einer begrenzten Anzahl von Kategorien effektiv sind, da sie es dem Betrachter ermöglichen, die wichtigsten Kategorien oder dominanten Anteile schnell auf einen Blick zu verstehen. In diesem speziellen Beispiel bietet die Verwendung von vier verschiedenen Arten von Kreisdiagrammen eine klare Visualisierung der Geschlechterverteilung unter Erstautoren in den Prime-10-Zeitschriften für Veröffentlichungen zur Herzkrankheitsforschung, basierend auf dem in dieser Studie verwendeten Minidatensatz 2002 bis 2020. Es ist offensichtlich, dass ein höherer Prozentsatz der Erstautoren der Publikation Männer sind, und keine der Prime-10-Zeitschriften für Herzkrankheitsforschung veröffentlichte im untersuchten Zeitraum mehr Artikel, die von Frauen als von Männern verfasst wurden.
Das für diesen Artikel verwendete Jupyter-Notizbuch und der Datensatz finden Sie unter GitHub
Vielen Dank fürs Lesen,
Diana
Hinweis: Ich habe GitHub-Einbettungen verwendet, um diesen Artikel zu veröffentlichen.