Wenn Sie PySpark verwenden, insbesondere wenn Sie über SQL-Kenntnisse verfügen, besteht eines der ersten Dinge, die Sie tun möchten, darin, die zu verarbeitenden Daten in einen DataFrame zu übertragen. Sobald sich die Daten in einem DataFrame befinden, können Sie ganz einfach eine temporäre Ansicht (oder eine permanente Tabelle) aus dem DataFrame erstellen. In dieser Part steht Ihnen der gesamte umfangreiche Satz an Operationen von PySpark SQL zur Verfügung, mit denen Sie die Daten weiter untersuchen und verarbeiten können.
Da viele Customary-SQL-Kenntnisse problemlos auf PySpark SQL übertragbar sind, ist es wichtig, Ihre Daten so früh wie möglich in Ihrer Verarbeitungspipeline für die direkte Verwendung mit PySpark SQL vorzubereiten. Dies sollte für eine effiziente Datenverarbeitung und -analyse oberste Priorität haben.
Das tust du nicht haben um dies natürlich zu tun, da alles, was Sie mit PySpark SQL auf Ansichten oder Tabellen tun können, auch direkt auf DataFrames mithilfe der API getan werden kann. Aber als jemand, der mit SQL viel besser zurechtkommt als mit der DataFrame-API, battle mein Go-to-Prozess bei der Verwendung von Spark immer:
Eingabedaten -> DataFrame -> temporäre Ansicht -> SQL-Verarbeitung
Um Ihnen bei diesem Prozess zu helfen, wird in diesem Artikel der erste Teil dieser Pipeline erläutert, d. h. das Einfügen Ihrer Daten in DataFrames, indem vier davon vorgestellt werden…