Dieser Artikel bietet einen umfassenden Einstieg in die Datenanalyse mit Polars, einer leistungsstarken und effizienten Alternative zu Pandas. Anhand eines simulierten Kaffeehaus-Datensatzes lernen Anfänger, wie sie Daten laden, bereinigen, transformieren und analysieren können, um wertvolle Geschäftseinblicke zu gewinnen. Der Leitfaden deckt grundlegende Operationen wie das Hinzufügen neuer Spalten, Gruppieren und Filtern von Daten ab und zeigt, wie Polars zur Beantwortung spezifischer Geschäftsfragen eingesetzt werden kann.
Erste Schritte mit Polars
Polars ist eine in Rust geschriebene Datenverarbeitungsbibliothek, die für ihre Geschwindigkeit und Speichereffizienz bekannt ist. Sie eignet sich hervorragend für die Analyse großer Datensätze.
- Installation: Beginnen Sie mit der Installation von Polars und NumPy mit
pip install polars numpy. - Importieren: Importieren Sie die notwendigen Bibliotheken:
import polars as plundimport numpy as np.
Datensätze erstellen und erkunden
Um die Funktionalität von Polars zu demonstrieren, wird ein fiktiver Datensatz für ein Kaffeehaus namens "Bean There" erstellt. Dieser Datensatz enthält Transaktionsdaten wie Datum, Getränk, Preis, Menge und Kundentyp.
Nach der Erstellung des Datensatzes ist es wichtig, die Daten zu erkunden. Dies beinhaltet die Anzeige der ersten Zeilen (df.head()), die Überprüfung des Datentyps jeder Spalte (df.schema) und die Ermittlung der Größe des Datensatzes (df.height, df.width).
Daten transformieren und anreichern
Polars ermöglicht die einfache Erweiterung von Datensätzen durch das Hinzufügen neuer Spalten. Dies kann die Berechnung von Kennzahlen wie dem Gesamtumsatz pro Transaktion (total_sale) oder das Extrahieren von Datumskomponenten wie Wochentag (day_of_week), Monat (month) und Stunde (hour_of_day) umfassen.
Daten gruppieren und analysieren
Die Gruppierungsfunktion (group_by()) in Polars ist entscheidend für die Aggregation von Daten. Sie ermöglicht die Berechnung von Kennzahlen wie Gesamtumsatz, verkaufter Menge und durchschnittlicher Bewertung für verschiedene Kategorien, z. B. nach Getränketyp oder Wochentag.
- Getränke-Performance: Analysieren Sie, welche Getränke am besten verkauft werden, indem Sie nach
drinkgruppieren und Summen und Durchschnittswerte berechnen. - Tägliche Muster: Untersuchen Sie tägliche Verkaufsmuster, indem Sie nach
day_of_weekgruppieren, um den täglichen Umsatz und die Anzahl der Transaktionen zu ermitteln.
Daten filtern und Einblicke gewinnen
Das Filtern von Daten ist unerlässlich, um spezifische Datensätze zu isolieren. Mit filter() können Sie beispielsweise Transaktionen mit einem Gesamtumsatz von über 10 $ identifizieren und die größten Bestellungen ermitteln.
Kundenverhalten analysieren
Polars kann auch zur Analyse des Kundenverhaltens verwendet werden. Durch Gruppieren nach customer_type können Sie Kennzahlen wie durchschnittliche Ausgaben, Gesamtumsatz, Besuchshäufigkeit und durchschnittliche Zufriedenheit ermitteln. Dies hilft, die Präferenzen verschiedener Kundensegmente zu verstehen.
Zusammenfassung der Geschäftsergebnisse
Abschließend können die gesammelten Daten zu einer umfassenden Geschäftszusammenfassung kombiniert werden. Diese kann den Gesamtumsatz, die Gesamtzahl der Transaktionen, den durchschnittlichen Transaktionswert, das meistverkaufte Getränk und die durchschnittliche Kundenzufriedenheit umfassen. Dies liefert einen schnellen Überblick über die Leistung des Kaffeehauses.
Dieser Leitfaden zeigt die Leistungsfähigkeit von Polars für die Datenanalyse und ermutigt die Leser, durch Übung und Neugier ihre Fähigkeiten zu verbessern.