PySpark-Spickzettel: Spark in Python

Bloggen

PySpark-Spickzettel: Spark in Python

PySpark-Spickzettel

Dieser Spickzettel hilft Ihnen, PySpark zu lernen und PySpark-Apps schneller zu schreiben. Alles hier ist voll funktionsfähiger PySpark-Code, den Sie ausführen oder an Ihre Programme anpassen können.

Diese Snippets sind unter der CC0 1.0 Universal License lizenziert. Das bedeutet, dass Sie diese Codeschnipsel frei kopieren und anpassen können und keine Namensnennung geben oder Hinweise einfügen müssen.

Diese Snippets verwenden DataFrames, die aus verschiedenen Datenquellen geladen werden:

  • 'Auto MPG Data Set' erhältlich bei der UCI-Repositorium für maschinelles Lernen .
  • customer_spend.csv, ein generierter Zeitreihendatensatz.
  • date_examples.csv, ein generierter Datensatz mit verschiedenen Datums- und Zeitformaten.

Diese Snippets wurden mit der Spark 3.1.2-API getestet. Diese Seite wurde zuletzt am 16.12.2021 um 11:45:07 Uhr aktualisiert.

Beachten Sie diese hilfreichen Links:

Versuchen Sie es in einem Notebook

Siehe die Notebook-Anleitung für Anweisungen zum Ausführen in einem Jupyter-Notebook.

Generieren Sie den Cheatsheet

Sie können das Cheatsheet generieren, indem Sie |_+_| ausführen in Ihrer PySpark-Umgebung wie folgt:

  • Abhängigkeiten installieren: |_+_|
  • README.md generieren: |_+_|
  • Erzeuge cheatsheet.ipynb: |_+_|

Inhaltsverzeichnis

  • Laden Sie einen DataFrame aus CSV
  • Laden Sie einen DataFrame aus einer Datei mit tabulatorgetrennten Werten (TSV).
  • Speichern Sie einen DataFrame im CSV-Format
  • Laden Sie einen DataFrame aus Parquet
  • Speichern Sie einen DataFrame im Parquet-Format
  • Laden Sie einen DataFrame aus JSON Lines (jsonl) formatierten Daten
  • Speichern Sie einen DataFrame in einer Hive-Katalogtabelle
  • Laden Sie eine Hive-Katalogtabelle in einen DataFrame
  • Laden Sie eine CSV-Datei von Amazon S3
  • Laden Sie eine CSV-Datei aus Oracle Cloud Infrastructure (OCI) Object Storage
  • Lesen Sie eine Oracle-DB-Tabelle mit einem Wallet in einen DataFrame ein
  • Schreiben Sie einen DataFrame mit einem Wallet in eine Oracle-DB-Tabelle
  • Lesen Sie eine Postgres-Tabelle in einen DataFrame
  • Schreiben Sie einen DataFrame in eine Postgres-Tabelle
  • Berechnen Sie die Anzahl der NULL-Werte über alle Spalten hinweg
  • Berechnen Sie Durchschnittswerte aller numerischen Spalten
  • Berechnen Sie die Mindestwerte aller numerischen Spalten
  • Maximalwerte aller numerischen Spalten berechnen
  • Berechnen Sie Medianwerte aller numerischen Spalten
  • Identifizieren Sie Ausreißer in einem DataFrame
  • https://github.com/cartershanklin/pyspark-cheatsheet
    Lizenz: CC0-1.0-Lizenz

    -Funke