„Sie müssen kein Experte sein, um jemanden zu täuschen, obwohl Sie möglicherweise etwas Fachwissen benötigen, um zuverlässig zu erkennen, wann Sie getäuscht werden.“
Wenn mein Co-Instruktor und ich unsere vierteljährliche Lektion über irreführende Visualisierungen für den Datenvisualisierungskurs an der Universität von Washington beginnen, betont er unseren Schülern den obigen Punkt. Mit dem Aufkommen moderner Technologie ist es einfacher als je zuvor, hübsche und überzeugende Behauptungen über Daten zu entwickeln. Jeder kann etwas machen, das passabel erscheint, aber Versehen enthält, die es ungenau und sogar schädlich machen. Darüber hinaus gibt es auch böswillige Schauspieler, die aktiv aktiv sind wollen Um Sie zu täuschen und wer einige der besten Möglichkeiten studiert hat, dies zu tun.
Ich beginne diesen Vortrag oft mit einer Artwork Witz, schaue meine Schüler ernst und stelle zwei Fragen:
- „Ist es eine gute Sache, wenn jemand dich gaslicht?“
- Nach dem allgemeinen Murmeln der Verwirrung, gefolgt von einer Vereinbarung, dass Gaslicht in der Tat schlecht ist, stelle ich die zweite Frage: „Was ist der beste Weg, um sicherzustellen, dass Sie jemals von niemandem gaslicht?“
Die Schüler denken im Allgemeinen über diese zweite Frage nach, bevor sie ein wenig kichern und die Antwort erkennen: Es ist zu lernen, wie Menschen in erster Linie gaslicht. Nicht, damit Sie andere ausnutzen können, aber Sie können verhindern, dass andere Sie ausnutzen.
Gleiches gilt im Bereich der Fehlinformation und Desinformation. Menschen, die Daten irreführen möchten, werden mit einer Vielzahl von Instruments befugt, vom Hochgeschwindigkeits-Web über soziale Medien bis zuletzt generative KI und große Sprachmodelle. Um sich davor zu schützen, in die Irre geführt zu werden, müssen Sie ihre Tips lernen.
In diesem Artikel habe ich die wichtigsten Ideen aus meiner Einheit meines Datenvisualisierungskurses für Täuschung – nach Alberto Cairos hervorragendem Buch, übernommen Wie Diagramme Lüge– und erweiterte sie zu einigen allgemeinen Grundsätzen über Täuschung und Daten. Ich hoffe, dass Sie es lesen, verinnerlichen und es mitnehmen, um sich gegen den Ansturm von Lügen zu bewaffnen, die von schlecht abhängigen Menschen verewigt werden, die mit Daten betrieben werden.
Menschen können den Bereich nicht interpretieren
Zumindest nicht so intestine wie wir andere visuelle Hinweise interpretieren. Lassen Sie uns dies mit einem Beispiel veranschaulichen. Angenommen, wir haben einen extrem einfachen numerischen Datensatz. Es ist eine dimensionale und besteht aus nur zwei Werten: 50 und 100. Eine Möglichkeit, dies visuell darzustellen, ist die Länge der Balken wie folgt:

Dies gilt den zugrunde liegenden Daten. Die Länge ist eine eindimensionale Menge, und wir haben sie verdoppelt, um eine Verdoppelung des Wertes anzuzeigen. Aber was passiert, wenn wir dieselben Daten mit Kreisen darstellen wollen? Nun, Kreise sind nicht wirklich durch eine Länge oder Breite definiert. Eine Choice besteht darin, den Radius zu verdoppeln:

Hmm. Der erste Kreis hat einen Radius von 100 Pixel und der zweite einen Radius von 50 Pixel – dies ist additionally technisch korrekt, wenn wir den Radius verdoppeln wollten. Aufgrund der Berechnung dieser Fläche (πR²) haben wir die Fläche jedoch viel mehr als verdoppelt. Was ist, wenn wir das nur versuchen würden, da es visuell genauer erscheint? Hier ist eine überarbeitete Model:

Jetzt haben wir ein anderes Downside. Der größere Kreis ist mathematisch doppelt so groß wie der kleinere, aber nicht mehr Aussehen Auf diese Weise. Mit anderen Worten, obwohl es sich um einen visuell genauen Vergleich einer doppelten Menge handelt, haben menschliche Augen Schwierigkeiten, sie wahrzunehmen.
Das Downside hier ist es, den Bereich als visuelle Marker überhaupt zu nutzen. Es ist nicht unbedingt falschaber es ist verwirrend. Wir erhöhen einen eindimensionalen Wert, aber die Fläche ist eine zweidimensionale Menge. Für das menschliche Auge wird es immer schwierig sein, genau zu interpretieren, insbesondere im Vergleich zu einer natürlicheren visuellen Darstellung wie Balken.
Nun, dies magazine so aussehen, als wäre es kein großes Geschäft – aber schauen wir uns an, was passiert, wenn Sie dies auf einen tatsächlichen Datensatz erweitern. Im Folgenden habe ich zwei Bilder von Diagrammen eingefügt, die ich in Altair gemacht habe (ein Python-basierter Visualisierungspaket). Jedes Diagramm zeigt die maximale Temperatur (in Celsius) in der ersten Woche des Jahres 2012 in Seattle, USA. Der erste verwendet die Balkenlängen, um den Vergleich zu machen, und der zweite verwendet Kreisbereiche.


Welches erleichtert es, die Unterschiede zu erkennen? Die Legende hilft im zweiten, aber wenn wir ehrlich sind, ist es eine verlorene Sache. Es ist viel einfacher, präzise Vergleiche mit den Balken zu machen, selbst in einer Umgebung, in der wir so begrenzte Daten haben.
Denken Sie daran, dass der Punkt einer Visualisierung darin besteht, Daten zu klären – um versteckte Traits für die durchschnittliche Particular person leichter zu erkennen. Um dieses Ziel zu erreichen, ist es am besten, visuelle Hinweise zu verwenden, die den Prozess der Unterscheidung vereinfachen.
Hüten Sie sich auf politische Schlagzeilen (in jede Richtung)
Es gibt eine kleine Trick -Frage, die ich meinen Schülern manchmal in der vierten Unterrichtswoche auf eine Hausaufgabe stelle. Die Aufgabe beinhaltet hauptsächlich die Erstellung von Visualisierungen in Python – aber für die letzte Frage gebe ich ihnen ein Diagramm, das ich selbst generiert habe, begleitet von einer einzelnen Frage:

FRAGE: Eine Sache ist mit dem obigen Diagramm ungeheuerlich schief, ein unverzeihlicher Fehler in Datenvisualisierung. Was ist das?
Die meisten denken, dass es etwas mit den Achsen, Markierungen oder einem anderen visuellen Aspekt zu tun hat, was häufig Verbesserungen wie das Füllen der Kreise oder die Informationsbezeichnungen der Achse aufmerksam macht. Das sind gute Vorschläge, aber nicht die dringendsten.
Das fehlerhafteste Merkmal (oder das Fehlen davon, eher) in der obigen Tabelle ist die fehlender Titel. Ein Titel ist entscheidend für eine effektive Datenvisualisierung. Wie sollen wir ohne sie wissen, worum es in dieser Visualisierung überhaupt geht? Ab sofort können wir nur feststellen, dass es über eine Zeitspanne von Jahren vage etwas mit Kohlendioxidspiegeln zu tun hat. Das ist nicht viel.
Viele Leute, die das Gefühl haben, dass diese Anforderung zu streng ist. Leider ist diese Denkweise viel zu idealistisch; In Wirklichkeit muss eine Visualisierung allein stehen, da sie oft das einzige sein wird, worauf die Menschen sich ansehen-und in sozialen Medienblasen wird das einzige, was weit verbreitet wird. Infolgedessen sollte es einen Titel haben, um sich selbst zu erklären.
Natürlich sagt der Titel dieses Unterabschnitts, dass Sie sich vor solchen Schlagzeilen misstrauen sollen. Das ist wahr. Während sie notwendig sind, sind sie ein zweischneidiges Schwert. Da die Visualisierungsdesigner wissen, dass die Zuschauer auf den Titel achten, können uneinheitliche, die Menschen auch in weniger als genaue Richtungen beeinflussen. Schauen wir uns ein Beispiel an:
Das obige ist a Bild, das 2017 vom öffentlichen Twitter -Konto des Weißen Hauses geteilt wird. Das Bild wird auch von Alberto Cairo in seinem Buch verwiesen, das viele der Punkte betont, die ich jetzt machen werde.
Das Wichtigste zuerst. Das Wort „Kettenmigration“, das sich auf die formell als familienbasierte Migration bezeichnete (wo ein Einwanderer Familienmitglieder für die Vereinigten Staaten sponsern kann), wurde von vielen kritisiert, die argumentieren, dass es unnötig aggressiv ist und die legalen Einwanderer ohne Grund bedrohlich klingen lassen.
Natürlich ist Politik von Natur aus spaltend und es ist möglich, dass jede Seite ein hitziges Argument vorbringt. Das primäre Downside ist hier tatsächlich ein datenbezogenes-insbesondere die Verwendung des Wortes „Kette“ im Kontext des mit dem Tweet geteilten Diagramms. Die „Ketten“ -Migration scheint darauf hinzudeuten, dass Menschen nacheinander einwandern können, in einem scheinbar endlosen Strom, ungehemmt und ungestört von der Entfernung der Familienbeziehungen. Die Realität ist natürlich das Ein einzelner Einwanderer kann meistens nur sofortige Familienmitglieder sponsern, und selbst das dauert ziemlich viel Zeit. Wenn man jedoch den Ausdruck „Kettenmigration“ liest und dann sofort ein scheinbar vernünftiges Diagramm untersucht, das sie zeigt, ist es leicht zu glauben, dass eine Particular person tatsächlich zusätzliche Einwanderer an einer exponentiellen Wachstumsrate von Foundation-3 hervorbringen kann.
Das ist das Downside mit jeder Artwork von politischer Überschrift – es macht es viel zu einfach, unehrliche, ungenaue Arbeiten mit der tatsächlichen Datenverarbeitung, -analyse und Visualisierung zu verbergen.
Es gibt NEIN Daten, die dem obigen Diagramm zugrunde liegen. Keiner. Null. Es ist völlig zufällig und das ist nicht in Ordnung für ein Diagramm, das absichtlich so erscheinen, als ob es etwas Sinnvolles und Quantitatives zeigt.
Als unterhaltsames kleines Kaninchenloch, das die Gefahren der politischen Headliner innerhalb von Daten hervorhebt Bodenscharnein Twitter -Konto, das die absurdischsten Grafiken auf dem US -Kongressboden veröffentlicht.
Verwenden Sie nicht 3D. Bitte.
Ich werde diesen Artikel zu einem etwas leichteren Thema beenden – aber noch eine wichtige. Unter keinen Umständen – überhaupt nicht – sollten Sie jemals ein 3D -Diagramm verwenden. Und wenn Sie sich in den Schuhen des Betrachters befinden – das heißt, wenn Sie sich eine 3D -Kreisdiagramm ansehen, die von jemand anderem gemacht wurde, vertrauen Sie ihm nicht.
Der Grund dafür ist einfach und verbindet sich mit dem, was ich mit Kreisen und Rechtecken besprochen habe: eine dritte Dimension stark verzerrt die Aktualität hinter den normalerweise eindimensionalen Maßnahmen. Der Bereich conflict schon schwer zu interpretieren – wie intestine, denkst du wirklich, dass das menschliche Auge mit Lautstärke macht?
Hier ist ein 3D -Kreisdiagramm i generiert mit zufälligen Zahlen:

Hier ist genau das gleiche Kreisdiagramm, aber in zwei Dimensionen:

Beachten Sie, wie das Blau nicht ganz so dominant ist, wie die 3D -Model zu vermuten scheint und dass Rot und Orange näher beieinander sind als ursprünglich dargestellt. Ich habe auch die prozentualen Bezeichnungen absichtlich (technisch schlechte Praxis) entfernt, um zu betonen, wie selbst bei den in der ersten vorhandenen Etiketten unsere Augen automatisch mehr auf die drastischeren visuellen Unterschiede achten. Wenn Sie diesen Artikel mit einem analytischen Auge lesen, denken Sie vielleicht, dass er keinen großen Unterschied macht. Tatsache ist jedoch, dass Sie solche Diagramme in den Nachrichten oder in den sozialen Medien oft sehen werden, und ein kurzer Blick ist alles, was sie jemals bekommen werden.
Es ist wichtig sicherzustellen, dass die Geschichte, die durch diesen schnellen Blick erzählt wird, wahrheitsgemäß ist.
Letzte Gedanken
Datenwissenschaft wird oft als die perfekte Synthese von angepriesen StatistikenLaptop und Gesellschaft, ein Weg, um tiefe und sinnvolle Erkenntnisse in eine Informations-adrische Welt zu erhalten und zu teilen. Dies gilt jedoch – aber die Fähigkeit, solche Erkenntnisse ausführlich zu teilen, erweitert sich unsere allgemeine Fähigkeit, sie genau zu interpretieren. Ich hoffe, dass Sie angesichts dessen diese Primer als hilfreich empfunden haben.
Seien Sie gespannt auf Teil 2, in dem ich über ein paar irreführende Techniken sprechen werde, die ein bisschen mehr in die Natur in der Natur involviert sind – einschließlich der Basisproportionen, (UN) vertrauenswürdige statistische Maßnahmen und Korrelationsmaßnahmen.
Versuchen Sie in der Zwischenzeit, nicht getäuscht zu werden.