Ziehen Sie heutzutage in der Datenwissenschaft den ganzen Hype an, aber ich würde argumentieren, dass sie beide sekundär zu einem wichtigeren und oft ignorierten-Abschnitt des Feldes sind.
Beim Umgang mit Daten gibt es zwei wesentliche Schritte:
- Verarbeitung und Analyse der Daten, um sinnvolle Erkenntnisse zu extrahieren.
- Diese Erkenntnisse an andere vermitteln.
Der zweite Punkt ist entscheidend und oft übersehen. Der fortschrittlichste Algorithmus der Welt oder der vorteilhafte Einblick ist nutzlos, wenn niemand ihn verstehen kann. Als Datenwissenschaftler müssen Sie lernen, andere Erkenntnisse zu übermitteln. Dafür gibt es mehr als einen Grund, wobei der scheinbare ist, dass die Welt insgesamt davon profitieren wird, wenn die richtigen Menschen die Daten verstehen. Es gibt jedoch einen weiteren ebenso wichtigen Grund: In der Beschreibung unserer Erkenntnisse für andere entdecken wir Fehler, ein tieferes Wissen oder weitere Bereiche für die Erforschung.
In diesem Artikel werden wir ein leistungsstarkes und effektives Device untersuchen, das dazu beitragen kann, den zweiten Schritt oben zu erreichen: Datenvisualisierung. Dies ist der erste in einer Reihe von Artikeln, die absolute Anfänger tief in den Bereich der Datenvisualisierung einfließen lassen. Dieser erste Artikel ist allgemein und leicht, als Einführung in das Feld insgesamt gedacht. In späteren Artikeln werde ich mich mit den technischen Aspekten befassen und schließlich zu dem Schluss kommen, indem ich Ihnen beibringt, wie Sie Ihre eigenen Datenvisualisierungen erstellen.
Mit diesem Wissen sind Sie bewaffnet, um Ihre Daten auf neue, aufregende Weise anzugehen.
„Der größte Wert eines Bildes ist, wenn es uns zwingt, zu bemerken, was wir nie erwartet haben.“ –John Tukey
Was zählt als Datenvisualisierung?
Viele Menschen betrachten die Datenvisualisierung durch ein eingeschränktes Objektiv und klassifizieren nur Standarddiagramme wie Balkendiagramme, Zeilendiagramme und dergleichen als echte Datenvisualisierungen. Aus dieser Perspektive betrachtete die Datenvisualisierung erst Mitte des 18. Jahrhunderts. (Wir werden unten einige Beispiele sehen.)
Wir würden jedoch intestine tun, um unseren Geist zu erweitern. Die visuellen Transformationen von Daten sind keineswegs auf unsere traditionellen Ideen beschränkt. Sie gibt es seit Tausenden von Jahren. Zum Beispiel hier ist das Imago Mundi (1) die älteste bekannte Karte der Welt, die als Relikt der alten Stadt Babylon entdeckt wurde:

Diese Karte stellt Babylon in die Mitte und struggle wahrscheinlich ein äußerst nützliches Instrument, um das zu visualisieren, was wir jetzt formell Geospatial -Daten nennen. Es ist eine der frühesten Datenvisualisierungen der Welt.
Es gibt eine Vielzahl ähnlicher Figuren und Bilder aus verschiedenen alten Zivilisationen – Cave -Gemälde, Kalender, Steinschnitzereien, sogar ägyptische Hieroglyphen -. Dies sind alle effektiv visuelle Darstellungen von Daten, die in ihrer anfänglichen Type schwer zu verstehen waren. Das Betrachten dieser Beispiele als Datenvisualisierungen führt uns zu einem wichtigen Prinzip:
Im Kern ist die Datenvisualisierung nichts anderes als einige Daten zu nehmen – wenn es numerisch, textuell oder auf andere Weise – eine Transformation anwendet, um sie visuell darzustellen.
Dieses grundlegende Prinzip führt zu mehreren verwandten Themen, die hauptsächlich die effektivsten Methoden zur Durchführung dieser Transformationen umfassen, wo wirksam Übersetzt lose zu „ehrlich, leicht zu verstehen und informativ“.
Frühe Beispiele für Datenvisualisierungen
Nachdem wir unsere Perspektiven in Bezug auf das erweitert haben, was eine Datenvisualisierung ausmacht, schauen wir uns einige moderne Beispiele an. Im Folgenden finden Sie ein Diagramm von 1644 von Michael Florent Van Langren (2). Es ist eine der frühesten grafischen Darstellungen von dem, was wir als traditionelle statistische Daten betrachten, die Schätzungen des Längenunterschieds zwischen Rom und Toledo darstellen.

Betrachten wir als nächstes ein umfassenderes Beispiel – eines, das das obige Zitat von Tukey direkt hervorhebt.
Unten ist eine Karte des Londoner Distrikts Soho im Jahr 1854 (3). Es wurde von John Snow entworfen, um festzustellen, ob es Muster im Cholera -Ausbruch gab, der die Stadt zu dieser Zeit schwächte:

Mit Blick auf die Mitte der Karte können wir in der Broad Avenue eine außergewöhnlich große Anzahl von Todesfällen in der Nähe der Wasserpumpe sehen. Eine Untersuchung ergab, dass diese Pumpe kontaminiert struggle und eine Hauptursache für die Ausbreitung der Krankheit struggle.
Dieses Beispiel zeigt genau das Prinzip von John Tukey, das wir oben festgestellt haben: Eine der besten Verwendungen der Datenvisualisierung besteht darin, schnell Erkenntnisse zu sehen, die in der anfänglichen Type der Daten schwer zu finden sind.
Präzision und Flexibilität
Die Datenvisualisierung ist ein breites und tiefes Thema, das in vielerlei Hinsicht angegangen werden kann. Es gibt jedoch zwei Prinzipien, die Sie unabhängig von der spezifischen Type der Datenvisualisierung berücksichtigen sollten, an der Sie sich befassen: Präzision Und Flexibilität.
Eine gute Datenvisualisierung versucht nicht, schlecht definierte Aufgaben zu erledigen, z. B. das Anzeigen der Wesen von oder zusammenfassen alles wichtig über einen Datensatz. Aussagen wie diese sind subjektiv und im Wesentlichen unmöglich zu erreichen.
Eine gute Datenvisualisierung zeigt vielmehr einen spezifischen und genau definierten Aspekt der relevanten Daten auf eine Weise, die das Verständnis für den Benutzer erleichtert. Sie sollten immer genau artikulieren, was Sie über Ihre Daten ausdrücken möchten, bevor Sie überhaupt eine Visualisierung entwerfen.
Um dieses Prinzip zu verinnerlichen, ist es hilfreich, sich zu erinnern, mit welchem Zweck eine Datenvisualisierung ist: Erkenntnisse aus einem Datensatz auf klare und nützliche Weise anzuzeigen. Wir möchten die Daten leichter verstehen. Präzise sorgt dafür, dass wir dieses Ziel erreichen. Eine Visualisierung, die versucht, zu viel zu tun, könnte den Betrachter noch mehr verwechseln. Es ist viel besser, eine Visualisierung zu erstellen, die weniger Daten auf klarere Weise abdeckt. Qualität ist wichtiger als Quantität.
Schauen Sie sich die unten stehende Datentabelle an, die Informationen zu Gehältern aus verschiedenen Städten in den USA enthält.
| Title | Stadt | Einkommen | Beruf |
|---|---|---|---|
| Sarah Mitchell | Denver, co | $ 72.500 | Marketingmanager |
| Jamal Rodriguez | Houston, TX | $ 58.300 | Elektriker |
| Priya Desai | Seattle, WA | $ 91.200 | Software program -Ingenieur |
| Thomas Nguyen | Chicago, IL | $ 64.800 | Krankenschwester |
Welche der folgenden Aussagen ist die bessere Visualisierungsauswahl für die obigen Daten?
- Eine Visualisierung, die versucht, die Informationen in der Datentabelle mit einem Balkendiagramm mit Namen auf einer Achse und den Gehältern auf der anderen Achse zu vereinfachen, verwendet Farbe in den Städten und verwendet eine Textur an den Balken (gestrichelte Linien, diagonale Linien usw.), um zwischen Karrieren zu unterscheiden.
- Die gleiche Visualisierung wie oben, aber diesmal ohne die Majors. Mit anderen Worten, ein Balkendiagramm mit Namen und Gehältern, in dem die Balken basierend auf dem Standort basieren.
Es ist verlockend, den ersten zu wählen, aber Tatsache ist, dass es versucht, zu viel zu tun. Besser begrenzte, gezielte Informationen anzeigen als Ihr Publikum zu verwirren.
Neben präziser ist die Aufrechterhaltung der Flexibilität auch wichtig. Es gibt keine perfekte Datenvisualisierung. Es gibt immer Raum für Verbesserungen und Datenvisualisierungen werden bei jeder Revision im Allgemeinen besser. Natürlich muss irgendwann eine Datenvisualisierung mit anderen geteilt und ihrem Zweck erfüllt werden.
Dies führt zu einem Dilemma – wie viel Überarbeitung ist genug Revision? Es gibt keine endgültige Antwort auf diese Frage. Der Prozess der Überarbeitung einer Visualisierung muss mit Sorgfalt durchgeführt werden. Wenn Sie zu viele Menschen um Rat fragen, wird wahrscheinlich eine Reihe von halbgebackenen, widersprüchlichen Meinungen führen. Andererseits wird die Veröffentlichung des ersten Entwurfs einer Visualisierung – IE, die überhaupt nicht überarbeitet – zu einem unterdurchschnittlichen Ergebnis führen.
Obwohl es keine perfekte Lösung gibt, können Sie einige Richtlinien befolgen:
- Identifizieren Sie 2-3 Personen, um Ihnen Suggestions zu Ihrer Visualisierung zu geben.
- Versuchen Sie sicherzustellen, dass Ihre Liste der Personen Folgendes umfasst:
- Ein Rezensent, der das Entwerfen von Datenvisualisierungen beherrscht
- Ein Rezensent, der ein starkes Verständnis der Daten hat, die zur Entwicklung der Visualisierung verwendet werden (z. B. Politikwissenschaftler für Wahldaten).
- Ein Rezensent, der Teil des beabsichtigten Publikums für die Visualisierung ist
- Gehen Sie 2-3 Runden Suggestions und Überarbeitung durch mit derselben Liste von Personen. Dadurch wird sichergestellt, dass Verbesserungen der Visualisierung kontinuierlich und logisch sind.
Letzte Gedanken und freue mich nach vorne
In vielerlei Hinsicht ähnelt die Datenvisualisierung mit dem Schreiben. Selbst die produktivsten und talentiertesten Autoren haben Redakteure, und ihre Bücher werden umfassend überarbeitet, bevor sie für die Veröffentlichung genehmigt werden. Warum? Aus dem einfachen Grund, dass ein gutes Schreiben weitgehend vom Publikum abhängt, stellt sorgfältig kuratierte Revision die beste Erfahrung für die späteren Leser eines Buches sicher. Die gleiche Idee gilt für die Datenvisualisierung.
Wenn Sie diese Richtlinien befolgen, können Sie sicherstellen, dass Sie eine robuste Datenvisualisierung entwickeln, die auf Finest Practices beruht, die vorliegenden Daten korrekt anzeigt und für das beabsichtigte Publikum verständlich ist.
Sie sind der Schlüssel zu einer effektiven Datenvisualisierung und der Grundlage für erweiterte Visualisierungstechniken, die in zukünftigen Artikeln diskutiert werden. Bis dahin.
Referenzen
(1) https://commons.wikimedia.org/wiki/File:The_Babylonian_map_of_the_world,_from_sippar,_mesopotamia..jpg
(2) Die visuelle Anzeige quantitativer InformationenEdward Tufte
(3) https://picryl.com/media/snow-cholera-map-1-cbadea
