Bild vom Autor
Julia ist eine weitere Programmiersprache wie Python und R. Sie kombiniert die Geschwindigkeit von Low-Degree-Sprachen wie C mit der Einfachheit von Python. Julia wird im Bereich der Datenwissenschaft immer beliebter. Wenn Sie additionally Ihr Portfolio erweitern und eine neue Sprache lernen möchten, sind Sie hier genau richtig.
In diesem Tutorial lernen wir, Julia für Information Science einzurichten, die Daten zu laden, eine Datenanalyse durchzuführen und sie dann zu visualisieren. Das Tutorial ist so einfach gestaltet, dass jeder, sogar ein Pupil, in 5 Minuten mit der Datenanalyse mit Julia beginnen kann.
1. Einrichten Ihrer Umgebung
- Laden Sie Julia herunter und installieren Sie das Paket, indem Sie auf die (julialang.org).
- Wir müssen Julia jetzt für Jupyter Pocket book einrichten. Starten Sie ein Terminal (PowerShell), geben Sie „julia“ ein, um Julia REPL zu starten, und geben Sie dann den folgenden Befehl ein.
utilizing Pkg
Pkg.add("IJulia")
- Starten Sie das Jupyter-Pocket book und starten Sie das neue Pocket book mit Julia als Kernel.
- Erstellen Sie die neue Codezelle und geben Sie den folgenden Befehl ein, um die erforderlichen Information Science-Pakete zu installieren.
utilizing Pkg
Pkg.add("DataFrames")
Pkg.add("CSV")
Pkg.add("Plots")
Pkg.add("Chain")
2. Daten laden
Für dieses Beispiel verwenden wir die On-line-Verkaufsdatensatz von Kaggle. Es enthält Daten zu On-line-Verkaufstransaktionen in verschiedenen Produktkategorien.
Wir laden die CSV-Datei und konvertieren sie in DataFrames, was Pandas DataFrames ähnelt.
utilizing CSV
utilizing DataFrames
# Load the CSV file right into a DataFrame
knowledge = CSV.learn("On-line Gross sales Information.csv", DataFrame)
3. Daten erkunden
Wir werden die Funktion „first“ anstelle von „head“ verwenden, um die oberen 5 Zeilen des DataFrame anzuzeigen.
Um die Datenzusammenfassung zu generieren, verwenden wir die Funktion „describe“.
Ähnlich wie bei Pandas DataFrame können wir bestimmte Werte anzeigen, indem wir die Zeilennummer und den Spaltennamen angeben.
Ausgabe:
4. Datenmanipulation
Wir werden die Funktion „Filter“ verwenden, um die Daten basierend auf bestimmten Werten zu filtern. Sie erfordert den Spaltennamen, die Bedingung, die Werte und den DataFrame.
filtered_data = filter(row -> row(:"Unit Value") > 230, knowledge)
final(filtered_data, 5)
Wir können auch eine neue Spalte ähnlich wie bei Pandas erstellen. So einfach ist das.
knowledge(!, :"Whole Income After Tax") = knowledge(!, :"Whole Income") .* 0.9
final(knowledge, 5)
Nun berechnen wir die Mittelwerte des „Gesamtumsatzes nach Steuern“ basierend auf verschiedenen „Produktkategorien“.
utilizing Statistics
grouped_data = groupby(knowledge, :"Product Class")
aggregated_data = mix(grouped_data, :"Whole Income After Tax" .=> imply)
final(aggregated_data, 5)
5. Visualisierung
Die Visualisierung ähnelt Seaborn. In unserem Fall visualisieren wir das Balkendiagramm der kürzlich erstellten aggregierten Daten. Wir stellen die X- und Y-Spalten und dann den Titel und die Beschriftungen bereit.
utilizing Plots
# Fundamental plot
bar(aggregated_data(!, :"Product Class"), aggregated_data(!, :"Whole Income After Tax_mean"), title="Product Evaluation", xlabel="Product Class", ylabel="Whole Income After Tax Imply")
Der Großteil des durchschnittlichen Gesamtumsatzes wird durch Elektronik generiert. Die Visualisierung sieht perfekt und klar aus.
Um Histogramme zu generieren, müssen wir nur die X-Spalte und die Beschriftungsdaten angeben. Wir möchten die Häufigkeit der verkauften Artikel visualisieren.
histogram(knowledge(!, :"Models Offered"), title="Models Offered Evaluation", xlabel="Models Offered", ylabel="Frequency")
Es scheint, als hätte die Mehrheit der Leute ein oder zwei Artikel gekauft.
Um die Visualisierung zu speichern, verwenden wir die Funktion „savefig“.
6. Erstellen einer Datenverarbeitungspipeline
Die Erstellung einer geeigneten Datenpipeline ist erforderlich, um Datenverarbeitungs-Workflows zu automatisieren, die Datenkonsistenz sicherzustellen und eine skalierbare und effiziente Datenanalyse zu ermöglichen.
Wir werden die Bibliothek „Chain“ verwenden, um Ketten verschiedener Funktionen zu erstellen, die zuvor zur Berechnung des durchschnittlichen Gesamtumsatzes basierend auf verschiedenen Produktkategorien verwendet wurden.
utilizing Chain
# Instance of a easy knowledge processing pipeline
processed_data = @chain knowledge start
filter(row -> row(:"Unit Value") > 230, _)
groupby(_, :"Product Class")
mix(_, :"Whole Income" => imply)
finish
first(processed_data, 5)
Um den verarbeiteten DataFrame als CSV-Datei zu speichern, verwenden wir die Funktion „CSV.write“.
CSV.write("output.csv", processed_data)
Abschluss
Meiner Meinung nach ist Julia einfacher und schneller als Python. Viele der Syntax und Funktionen, die ich gewohnt bin, sind auch in Julia verfügbar, wie Pandas, Seaborn und Scikit-Study. Warum additionally nicht eine neue Sprache lernen und anfangen, Dinge besser zu machen als Ihre Kollegen? Außerdem wird es Ihnen helfen, einen Job im Forschungsbereich zu bekommen, da die meisten klinischen Forscher Julia gegenüber Python bevorzugen.
In diesem Tutorial haben wir gelernt, wie man die Julia-Umgebung einrichtet, den Datensatz lädt, leistungsstarke Datenanalysen und -visualisierungen durchführt und die Datenpipeline für Reproduzierbarkeit und Zuverlässigkeit erstellt. Wenn Sie mehr über Julia für Information Science erfahren möchten, lassen Sie es mich bitte wissen, damit ich noch mehr einfache Tutorials für Sie schreiben kann.
Abid Ali Awan (@1abidaliawan) ist ein zertifizierter Datenwissenschaftler, der gerne Modelle für maschinelles Lernen erstellt. Derzeit konzentriert er sich auf die Erstellung von Inhalten und das Schreiben technischer Blogs zu Technologien für maschinelles Lernen und Datenwissenschaft. Abid hat einen Grasp-Abschluss in Technologiemanagement und einen Bachelor-Abschluss in Telekommunikationstechnik. Seine Imaginative and prescient ist es, mithilfe eines Graph-Neural-Networks ein KI-Produkt für Studenten zu entwickeln, die mit psychischen Erkrankungen zu kämpfen haben.