SQL für Datenanalysten: Grundlegende Abfragen für die Datenextraktion und -transformation

Bild vom Herausgeber

# Einführung

Datenanalysten müssen mit großen Mengen an Informationen arbeiten, die in Datenbanken gespeichert sind. Bevor sie Berichte erstellen oder Erkenntnisse gewinnen können, müssen sie zunächst die richtigen Daten abrufen und für die Verwendung vorbereiten. Hier kommt SQL (Structured Question Language) ins Spiel. SQL ist ein Device, das Analysten dabei hilft, Daten abzurufen, zu bereinigen und im gewünschten Format zu organisieren.

In diesem Artikel schauen wir uns die wichtigsten SQL-Abfragen an, die jeder Datenanalyst kennen sollte.

# 1. Daten mit SELECT auswählen

Der WÄHLEN Die Anweisung ist die Grundlage von SQL. Sie können bestimmte Spalten auswählen oder verwenden * um alle verfügbaren Felder zurückzugeben.

SELECT identify, age, wage FROM workers;

Diese Abfrage ruft nur die ab identify, ageUnd wage Spalten aus der workers Tisch.

# 2. Daten mit WHERE filtern

WO grenzt die Zeilen auf diejenigen ein, die Ihren Bedingungen entsprechen. Es unterstützt Vergleiche und logische Operatoren zur Erstellung präziser Filter.

SELECT * FROM workers WHERE division="Finance";

Die WHERE-Klausel gibt nur Mitarbeiter zurück, die zur Finanzabteilung gehören.

# 3. Ergebnisse mit ORDER BY sortieren

Der BESTELLEN NACH Die Klausel sortiert Abfrageergebnisse in aufsteigender oder absteigender Reihenfolge. Es wird verwendet, um Datensätze nach numerischen, Textual content- oder Datumswerten zu ordnen.

SELECT identify, wage FROM workers ORDER BY wage DESC;

Diese Abfrage sortiert Mitarbeiter nach Gehalt in absteigender Reihenfolge, sodass die bestbezahlten Mitarbeiter zuerst angezeigt werden.

# 4. Duplikate mit DISTINCT entfernen

Der UNTERSCHEIDBAR Das Schlüsselwort gibt nur eindeutige Werte aus einer Spalte zurück. Dies ist nützlich, wenn Sie saubere Pay attention von Kategorien oder Attributen erstellen möchten.

SELECT DISTINCT division FROM workers;

DISTINCT entfernt doppelte Einträge und gibt jeden Abteilungsnamen nur einmal zurück.

# 5. Ergebnisse mit LIMIT begrenzen

Der LIMIT Die Klausel schränkt die Anzahl der von einer Abfrage zurückgegebenen Zeilen ein. Es wird oft mit gepaart BESTELLEN NACH um Prime-Ergebnisse oder Beispieldaten aus großen Tabellen anzuzeigen.

SELECT identify, wage 
FROM workers 
ORDER BY wage DESC 
LIMIT 5;

Dadurch werden durch Kombination die fünf Mitarbeiter mit den höchsten Gehältern ermittelt BESTELLEN NACH mit LIMIT.

# 6. Aggregieren von Daten mit GROUP BY

Der GRUPPE NACH Die Klausel gruppiert Zeilen, die dieselben Werte in bestimmten Spalten haben. Es wird mit Aggregatfunktionen wie verwendet SUM(), AVG()oder COUNT() Zusammenfassungen zu erstellen.

SELECT division, AVG(wage) AS avg_salary
FROM workers
GROUP BY division;

GROUP BY organisiert Zeilen nach Abteilung und AVG(wage) berechnet das durchschnittliche Gehalt für jede Gruppe.

# 7. Gruppen mit HAVING filtern

Der HABEN Die Klausel filtert gruppierte Ergebnisse, nachdem die Aggregation angewendet wurde. Es wird verwendet, wenn Bedingungen von aggregierten Werten wie Gesamtwerten oder Durchschnittswerten abhängen.

SELECT division, COUNT(*) AS num_employees
FROM workers
GROUP BY division
HAVING COUNT(*) > 10;

Die Abfrage zählt die Mitarbeiter in jeder Abteilung und filtert dann, um nur Abteilungen mit mehr als 10 Mitarbeitern zu behalten.

# 8. Tabellen mit JOIN kombinieren

Der VERBINDEN Die Klausel kombiniert Zeilen aus zwei oder mehr Tabellen basierend auf einer zugehörigen Spalte. Es hilft dabei, verbundene Daten abzurufen, z. B. Mitarbeiter mit ihren Abteilungen.

SELECT e.identify, d.identify AS division
FROM workers e
JOIN departments d ON e.dept_id = d.id;

Dabei kombiniert JOIN Mitarbeiter mit den dazu passenden Abteilungsnamen.

# 9. Ergebnisse mit UNION kombinieren

UNION kombiniert die Ergebnisse von zwei oder mehr Abfragen in einem einzigen Datensatz. Es entfernt automatisch Duplikate, es sei denn, Sie verwenden UNION ALLwas sie hält.

SELECT identify FROM workers UNION SELECT identify FROM clients;

Diese Abfrage kombiniert Namen aus beiden workers Und clients Tabellen in einer einzigen Liste.

# 10. String-Funktionen

String-Funktionen in SQL werden zum Bearbeiten und Transformieren von Textdaten verwendet. Sie helfen bei Aufgaben wie dem Kombinieren von Namen, dem Ändern der Groß-/Kleinschreibung, dem Kürzen von Leerzeichen oder dem Extrahieren von Teilen einer Zeichenfolge.

SELECT CONCAT(first_name, ' ', last_name) AS full_name, LENGTH(first_name) AS name_length FROM workers;

Diese Abfrage erstellt einen vollständigen Namen durch Kombination von Vor- und Nachnamen und berechnet die Länge des Vornamens.

# 11. Datums- und Uhrzeitfunktionen

Mit Datums- und Zeitfunktionen in SQL können Sie für Analysen und Berichte mit zeitlichen Daten arbeiten. Sie können Differenzen berechnen, Komponenten wie Jahr oder Monat extrahieren und Datumsangaben durch Addition oder Subtraktion von Intervallen anpassen. Zum Beispiel, DATEDIFF() mit CURRENT_DATE kann die Amtszeit messen.

SELECT identify, hire_date, DATEDIFF(CURRENT_DATE, hire_date) AS days_at_company FROM workers;

Es berechnet, wie viele Tage jeder Mitarbeiter im Unternehmen beschäftigt ist, indem das Einstellungsdatum vom heutigen Tag abgezogen wird.

# 12. Neue Spalten mit CASE erstellen

Der FALL Ausdruck erstellt neue Spalten mit bedingter Logik, ähnlich wie if-else-Anweisungen. Damit können Sie Daten innerhalb Ihrer Abfragen dynamisch kategorisieren oder umwandeln.

SELECT identify,
       CASE 
           WHEN age < 30 THEN 'Junior'
           WHEN age BETWEEN 30 AND 50 THEN 'Mid-level'
           ELSE 'Senior'
       END AS experience_level
FROM workers;

Die CASE-Anweisung erstellt eine neue Spalte namens experience_level basierend auf Altersgruppen.

# 13. Umgang mit fehlenden Werten mit COALESCE

VERSCHMELZEN Behandelt fehlende Werte, indem es den ersten Nicht-Null-Wert aus einer Liste zurückgibt. Es wird häufig zum Ersetzen verwendet NULL Felder mit einem Standardwert, z. B. „N/A“.

SELECT identify, COALESCE(telephone, 'N/A') AS contact_number FROM clients;

Hier ersetzt COALESCE fehlende Telefonnummern durch „N/A“.

# 14. Unterabfragen

Unterabfragen sind Abfragen, die in einer anderen Abfrage verschachtelt sind, um Zwischenergebnisse bereitzustellen. Sie werden verwendet in WHERE, FROModer SELECT Klauseln zum dynamischen Filtern, Vergleichen oder Erstellen von Datensätzen.

SELECT identify, wage FROM workers WHERE wage > (SELECT AVG(wage) FROM workers);

Diese Abfrage vergleicht mithilfe einer verschachtelten Unterabfrage das Gehalt jedes Mitarbeiters mit dem Durchschnittsgehalt des Unternehmens.

# 15. Fensterfunktionen

Fensterfunktionen führen Berechnungen über eine Reihe von Zeilen durch und geben dennoch einzelne Zeilendetails zurück. Sie werden häufig für Rangfolgen, laufende Summen und den Vergleich von Werten zwischen Zeilen verwendet.

SELECT identify, wage, RANK() OVER (ORDER BY wage DESC) AS salary_rank FROM workers;

Der RANK() Die Funktion weist jedem Mitarbeiter eine Rangfolge basierend auf dem Gehalt zu, ohne die Zeilen zu gruppieren.

# Abschluss

Die Beherrschung von SQL ist eine der wertvollsten Fähigkeiten für jeden Datenanalysten, da sie die Grundlage für das Extrahieren, Transformieren und Interpretieren von Daten bildet. Vom Filtern und Aggregieren bis hin zum Zusammenführen und Umformen von Datensätzen ermöglicht SQL Analysten, Rohinformationen in aussagekräftige Erkenntnisse umzuwandeln, die die Entscheidungsfindung vorantreiben. Durch die Beherrschung wesentlicher Abfragen optimieren Analysten nicht nur ihre Arbeitsabläufe, sondern stellen auch Genauigkeit und Skalierbarkeit ihrer Analysen sicher.

Jayita Gulati ist eine Enthusiastin für maschinelles Lernen und technische Redakteurin, angetrieben von ihrer Leidenschaft für die Entwicklung von Modellen für maschinelles Lernen. Sie hat einen Grasp-Abschluss in Informatik von der College of Liverpool.

SQL für Datenanalysten: Grundlegende Abfragen für die Datenextraktion und -transformation

# Einführung

# 1. Daten mit SELECT auswählen

# 2. Daten mit WHERE filtern

# 3. Ergebnisse mit ORDER BY sortieren

# 4. Duplikate mit DISTINCT entfernen

# 5. Ergebnisse mit LIMIT begrenzen

# 6. Aggregieren von Daten mit GROUP BY

# 7. Gruppen mit HAVING filtern

# 8. Tabellen mit JOIN kombinieren

# 9. Ergebnisse mit UNION kombinieren

# 10. String-Funktionen

# 11. Datums- und Uhrzeitfunktionen

# 12. Neue Spalten mit CASE erstellen

# 13. Umgang mit fehlenden Werten mit COALESCE

# 14. Unterabfragen

# 15. Fensterfunktionen

# Abschluss

Von admin

Schreibe einen Kommentar Antworten abbrechen

Versäumt

Spotify erweitert aufgeforderte Playlists um Podcast-Empfehlungen

Führen Sie Qwen3.5 auf einem alten Laptop computer aus: Eine leichte Einrichtungsanleitung für lokale Agenten-KI

Umfragestatistiken: Verbesserung mit Struktur

So verwenden Sie Claude Code, um ein Minimal Viable Product zu erstellen

About

Categories

Tags

Recent Post

Spotify erweitert aufgeforderte Playlists um Podcast-Empfehlungen

Führen Sie Qwen3.5 auf einem alten Laptop computer aus: Eine leichte Einrichtungsanleitung für lokale Agenten-KI

# Einführung

# 1. Daten mit SELECT auswählen

# 2. Daten mit WHERE filtern

# 3. Ergebnisse mit ORDER BY sortieren

# 4. Duplikate mit DISTINCT entfernen

# 5. Ergebnisse mit LIMIT begrenzen

# 6. Aggregieren von Daten mit GROUP BY

# 7. Gruppen mit HAVING filtern

# 8. Tabellen mit JOIN kombinieren

# 9. Ergebnisse mit UNION kombinieren

# 10. String-Funktionen

# 11. Datums- und Uhrzeitfunktionen

# 12. Neue Spalten mit CASE erstellen

# 13. Umgang mit fehlenden Werten mit COALESCE

# 14. Unterabfragen

# 15. Fensterfunktionen

# Abschluss

Von admin

Ähnlicher Beitrag

Schreibe einen Kommentar Antworten abbrechen

Versäumt