in meiner Datenvisualisierungsreihe. Siehe Folgendes:

Bis zu diesem Punkt habe ich in meiner Datenvisualisierungsreihe die grundlegenden Elemente des Visualisierungsdesigns behandelt. Es ist wichtig, diese Prinzipien zu verstehen, bevor Sie Visualisierungen tatsächlich entwerfen und erstellen, da sie sicherstellen, dass die zugrunde liegenden Daten gerecht werden. Falls Sie dies noch nicht getan haben, empfehle ich Ihnen dringend, meine vorherigen Artikel (oben verlinkt) zu lesen.

An diesem Punkt können Sie mit der Erstellung eigener Visualisierungen beginnen. In zukünftigen Artikeln werde ich verschiedene Möglichkeiten dazu behandeln – und ganz im Sinne der Datenwissenschaft erfordern viele dieser Methoden eine Programmierung. Um sicherzustellen, dass Sie für diesen nächsten Schritt bereit sind, enthält dieser Artikel einen kurzen Überblick über die Grundlagen von Python, gefolgt von einer Diskussion ihrer Relevanz für die Codierung von Datenvisualisierungen.

Die Grundlagen – Ausdrücke, Variablen, Funktionen

Ausdrücke, Variablen und Funktionen sind die Hauptbausteine ​​des gesamten Python-Codes – und zwar des Codes in jeder beliebigen Sprache. Werfen wir einen Blick darauf, wie sie funktionieren.

Ausdrücke

Ein Ausdruck ist eine Aussage, die einen bestimmten Wert ergibt. Der einfachste mögliche Ausdruck ist ein konstanter Wert beliebiger Artwork. Im Folgenden sind beispielsweise drei einfache Ausdrücke aufgeführt: Der erste ist eine Ganzzahl, der zweite eine Zeichenfolge und der dritte ein Gleitkommawert.

7
'7'
7.0

Komplexere Ausdrücke bestehen oft aus mathematischen Operationen. Wir können verschiedene Zahlen addieren, subtrahieren, multiplizieren oder dividieren:

3 + 7
820 - 300
7 * 53
121 / 11
6 + 13 - 3 * 4

Per Definition werden diese Ausdrücke von Python zu einem einzigen Wert ausgewertet, wobei der mathematischen Reihenfolge der Operationen gefolgt wird, die durch das Akronym beschrieben wird PEMDAS (Klammern, Exponenten, Multiplikation, Division, Addition, Subtraktion) (1). Beispielsweise ergibt der letzte Ausdruck oben die Zahl 7.0. (Sehen Sie, warum?)

Variablen

Ausdrücke sind großartig, aber an sich sind sie nicht besonders nützlich. Beim Programmieren müssen Sie normalerweise den Wert bestimmter Ausdrücke speichern, damit Sie sie in späteren Teilen unseres Programms verwenden können. A Variable ist ein Container, der den Wert eines Ausdrucks enthält und Ihnen den späteren Zugriff darauf ermöglicht. Hier sind genau die gleichen Ausdrücke wie im ersten Beispiel oben, diesmal jedoch mit in verschiedenen Variablen gespeicherten Werten:

int_seven = 7
text_seven = '7'
float_seven = 7.0

Variablen in Python haben einige wichtige Eigenschaften:

  • Eine Variable Title (das Wort hyperlinks vom Gleichheitszeichen) muss aus einem Wort bestehen und darf nicht mit einer Zahl beginnen. Wenn Sie mehrere Wörter in Ihre Variablennamen aufnehmen müssen, besteht die Konvention darin, diese durch Unterstriche zu trennen (wie in den Beispielen oben).
  • Sie müssen keinen Datentyp angeben, wenn wir mit Variablen in Python arbeiten, wie Sie es vielleicht gewohnt sind, wenn Sie Erfahrung im Programmieren in einer anderen Sprache haben. Dies liegt daran, dass Python ein ist dynamisch typisiert Sprache.
  • Einige andere Programmiersprachen unterscheiden zwischen Erklärung und die Abtretung einer Variablen. In Python weisen wir Variablen einfach in derselben Zeile zu, in der wir sie deklarieren, sodass keine Unterscheidung erforderlich ist.

Wenn Variablen deklariert werden, wertet Python den Ausdruck auf der rechten Seite des Gleichheitszeichens immer zu einem einzelnen Wert aus, bevor er ihn der Variablen zuweist. (Dies hängt damit zusammen, wie Python komplexe Ausdrücke auswertet). Hier ist ein Beispiel:

yet_another_seven = (2 * 2) + (9 / 3)

Dem Wert wird die obige Variable zugewiesen 7.0nicht der zusammengesetzte Ausdruck (2 * 2) + (9 / 3).

Funktionen

A Funktion kann als eine Artwork Maschine betrachtet werden. Es nimmt etwas (oder mehrere Dinge) auf, führt Code aus, der die von Ihnen übergebenen Objekte transformiert, und gibt genau einen Wert zurück. In Python werden Funktionen hauptsächlich aus zwei Gründen verwendet:

  1. Um interessierende Eingabevariablen zu manipulieren und eine Ausgabe zu erhalten, die wir benötigen (ähnlich wie mathematische Funktionen).
  2. Um Codewiederholungen zu vermeiden. Indem wir Code in eine Funktion packen, können wir die Funktion einfach immer dann aufrufen, wenn wir diesen Code ausführen müssen (anstatt immer wieder denselben Code zu schreiben).

Der einfachste Weg zu verstehen, wie Funktionen in Python definiert werden, ist die Betrachtung eines Beispiels. Nachfolgend haben wir eine einfache Funktion geschrieben, die den Wert einer Zahl verdoppelt:

def double(num):
    doubled_value = num * 2
    return doubled_value

print(double(2))    # outputs 4
print(double(4))    # outputs 8

Es gibt eine Reihe wichtiger Punkte zum obigen Beispiel, die Sie unbedingt verstehen sollten:

  • Der def Das Schlüsselwort teilt Python mit, dass Sie eine Funktion definieren möchten. Das Wort direkt danach def ist der Title der Funktion, daher wird die obige Funktion aufgerufen double.
  • Nach dem Namen gibt es eine Reihe von Klammern, in die Sie die Parameter der Funktion einfügen (ein schicker Begriff, der nur die Eingaben der Funktion bezeichnet). Wichtig: Wenn Ihre Funktion keine Parameter benötigt, müssen Sie trotzdem die Klammern einfügen – setzen Sie einfach nichts hinein.
  • Am Ende des def Anweisung muss ein Doppelpunkt verwendet werden, sonst ist Python nicht zufrieden (dh es wird ein Fehler ausgegeben). Zusammen die gesamte Linie mit dem def Die Aussage heißt Funktionssignatur.
  • Alle Zeilen nach dem def Die Anweisung enthält den Code, aus dem die Funktion besteht, eine Ebene nach innen eingerückt. Zusammen bilden diese Zeilen die Funktionskörper.
  • Die letzte Zeile der obigen Funktion ist die return-Anweisungdas die Ausgabe einer Funktion mithilfe der angibt return Stichwort. Eine Return-Anweisung muss nicht unbedingt die letzte Zeile einer Funktion sein, aber nachdem sie gefunden wurde, beendet Python die Funktion und es werden keine weiteren Codezeilen ausgeführt. Komplexere Funktionen können mehrere Return-Anweisungen haben.
  • Du Anruf eine Funktion, indem Sie ihren Namen schreiben und die gewünschten Eingaben in Klammern setzen. Wenn Sie eine Funktion ohne Eingaben aufrufen, müssen Sie dennoch die Klammern einfügen.

Python und Datenvisualisierung

Lassen Sie mich nun auf die Frage eingehen, die Sie sich vielleicht stellen: Warum überhaupt diese Python-Rezension? Schließlich gibt es viele Möglichkeiten, Daten zu visualisieren, und sie sind sicherlich nicht alle durch Python-Kenntnisse oder Programmierkenntnisse im Allgemeinen eingeschränkt.

Das stimmt, aber als Datenwissenschaftler ist es wahrscheinlich, dass Sie irgendwann programmieren müssen – und beim Programmieren verwenden Sie höchstwahrscheinlich Python als Sprache. Wenn Ihnen von den Dateningenieuren Ihres Groups gerade eine Datenbereinigungs- und Analysepipeline übergeben wurde, lohnt es sich zu wissen, wie Sie diese schnell und effektiv in eine Reihe umsetzbarer und vorzeigbarer visueller Erkenntnisse umwandeln können.

Generell ist es aus mehreren Gründen wichtig, Python für die Datenvisualisierung zu kennen:

  • Es ist eine zugängliche Sprache. Wenn Sie gerade erst in die Datenwissenschaft und Visualisierungsarbeit einsteigen, wird es viel einfacher sein, Visualisierungen in Python zu programmieren, als mit untergeordneten Instruments wie z. B. zu arbeiten D3 in JavaScript.
  • Es gibt viele verschiedene und beliebte Bibliotheken in Python, die alle die Möglichkeit bieten, Daten mit Code zu visualisieren, der direkt auf den oben erlernten Python-Grundlagen aufbaut. Beispiele hierfür sind Matplotlib, Seaborn, PlotlyUnd Vega-Altair (früher nur als Altair bekannt). Einige davon, insbesondere Altair, werde ich in zukünftigen Artikeln untersuchen.
  • Darüber hinaus lassen sich die Bibliotheken vor allem nahtlos in Pandas integrieren, die grundlegende Information-Science-Bibliothek in Python. Daten in Pandas können aus diesen Bibliotheken direkt in die Codelogik integriert werden, um Visualisierungen zu erstellen; Sie müssen es oft nicht einmal exportieren oder transformieren, bevor Sie mit der Visualisierung beginnen können.
  • Die in diesem Artikel besprochenen Grundprinzipien mögen elementar erscheinen, tragen jedoch wesentlich zur Datenvisualisierung bei:
    • Um sicherzustellen, dass Sie eine genaue Darstellung der Daten visualisieren, ist es wichtig, Ausdrücke richtig zu berechnen und die von anderen geschriebenen Ausdrücke zu verstehen.
    • Oft müssen Sie bestimmte Werte oder Wertesätze für die spätere Einbindung in eine Visualisierung speichern – dafür benötigen Sie Variablen.
      • Manchmal können Sie sogar speichern gesamte Visualisierungen in einer Variablen zur späteren Verwendung oder Anzeige.
    • Mit den fortgeschritteneren Bibliotheken wie Plotly und Altair können Sie integrierte (und manchmal sogar benutzerdefinierte) Funktionen aufrufen, um Visualisierungen anzupassen.
    • Grundkenntnisse in Python ermöglichen es Ihnen, Ihre Visualisierungen in einfache Anwendungen zu integrieren, die mit anderen geteilt werden können, indem Sie Instruments wie verwenden Plotly Sprint Und Streamlit. Ziel dieser Instruments ist es, den Prozess der Anwendungserstellung für Datenwissenschaftler zu vereinfachen, die neu in der Programmierung sind. Die in diesem Artikel behandelten grundlegenden Konzepte reichen aus, um Ihnen den Einstieg in die Verwendung zu erleichtern.

Wenn das nicht ausreicht, um Sie zu überzeugen, empfehle ich Ihnen dringend, auf einen der obigen Hyperlinks zu klicken und einige dieser Visualisierungstools selbst zu erkunden. Sobald Sie sehen, was Sie damit machen können, werden Sie nicht mehr zurückgehen.

Ich für meinen Teil werde im nächsten Artikel zurückkommen, um mein eigenes Tutorial zum Erstellen von Visualisierungen vorzustellen. (Eines oder mehrere dieser Instruments werden möglicherweise auftauchen.) Bis dahin!

Referenzen

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert